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内 容 简介 


本 书 从 软件 设计 的 角度 , 爹 面 ,系统 地 介绍 了 ARM 处 理 器 的 基本 体系 结构 和 软件 设计 与 优化 方法 ,内 
ЖЕ: ARM МЕЖЕ; ARM/Thumb f& 4 £C 诸 言 与 汇编 语言 程序 的 设计 与 优化 ;基本 运算 ,操作 的 优 
化 ;基于 ARM 的 DSP; 异 常 与 中 断 处 理 ; 固 件 与 能 入 式 OSicache 与 存 情 器 管理 ;ARMv6 体系 结构 的 特点 等 。 
全 书 内容 完 整 , 镍 对 各 种 不 同 的 ARM 内 核 系 统 结构 都 月 详 尽 论 述 ,并 有 大 量 的 例子 和 源 代 码 。 附录 给 出 了 
完整 的 ARMv4/v57Thumb 指令 的 功能 ,编码 ,周期 定时 以 及 汇编 参考 。 

本 书 适 于 从 事 ARM BEA GC HBECE E ER ,或 想 把 其 它 嵌 大 式 平台 的 软件 移植 到 ARM 平台 上 去 的 专 
业 技 术 人 员 使 用 ,要 求 对 ARM 处 理 器 有 一 定 的 了 解 , 并 有 已 语言 和 汇编 语言 基础 .车 在 编译 原理 .操作 系 
统 ,数字 信号 处 理 , 计 算 视 体系 缚 构 等 方面 有 一 定 的 基础 , 则 芍 果 会 更 好 。 本 书 也 可 作为 散人 式 系统 专业 方 
向 的 本 科 生 和 研究 生 相 关 课 程 的 教材 或 教学 参考 书 。 
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首先 我 们 名 所 有 中 国 读者 何 好 。 


很 高 兴 能 出 版 我 们 书 的 中 文 版 ,希望 你 们 有 许多 时 间 来 学 习 ARM # 
术 。 如 果 你 是 位 教授 ,那么 这 本 书 会 有 助 于 把 ARM 处 理 器 内 核 和 重要 的 
软件 编程 苇 术 介绍 给 学 生 ; 如 果 你 是 位 学 生 , 那 么 这 本 书 是 学 习 ARM 编程 
的 好 读物 ;如 果 你 是 位 使 用 ARM 核 进行 产品 研发 的 工程 师 ,那么 这 本 书 可 
以 满足 实际 需要 。 


此 书 的 目的 是 展示 如 条 设计 与 优化 基于 ARM 处 理 鳍 核 的 系统 软件 ， 
我 们 的 目标 是 提供 一 个 基础 的 工作 参考 ,以 便 能 利用 它 开 发 出 许多 成 功 的 
新 产品 。 


2004 年 ,ARM 的 合作 伙伴 生产 制造 了 12 亿 片 ARM 处 理 器 ,ARM 也 
推出 了 2 个 新 的 处 理 器 :Cortex - M3 和 MPCore, Cortex - M3 主要 针对 
微 控 制 器 市 场 ,而 MPCore 主要 寺 对 高 端的 消费 类 产品 ， | 


Cortex - M3 Ж Т {МИШ И, ЛУГ SEIS 3608 {ЕИ D E. 
Cortex ~ M3 实现 了 本 书 第 15 章 所 提 到 的 Thumb -2 55. MPCore 是 
第 一 个 АКМ 多 处 理 肉 内核, 执行 基于 均衡 多 处 理 器 (SMP) 的 操作 系统 ， 
MPCore 提供 了 cache 一 致 性 ,每 个 实现 支持 14 + ARMI 核 , 这 种 设计 
为 现代 消费 类 产品 对 性 能 和 功 耗 的 需求 作 了 很 好 的 平衡 。ARM 还 引 人 了 
L2 cache 控制 器 来 改进 系统 的 整体 性 能 。 


为 了 支持 大 量 的 密集 数据 处 理 , ARM 引 人 了 OptimoDE 技术 ,把 它 作 
为 一 个 可 配置 的 ,专用 的 超 长 指令 字 (VLIW) 数 据 引 擎 ,配合 ARM ЖЖ 
工作 。 这 种 数据 引擎 可 帮助 主 处 理 器 完成 诸如 MPEG4 或 Н. 264 等 复杂 
算法 。 








ARM 的 大 学 计划 将 继续 促进 在 应 用 研究 ,大 学 生 和 研究 生 深 程 以 及 
教学 培训 中 使 用 ARM 技术 。ARM 已 经 给 那些 从 事 片 [系统 (SoC3} 设 计 
教学 和 研究 的 大 学 ,授权 了 开发 工具 、 仿 真 模型 和 物理 IP, 并 与 剑桥 (Cam- 
bridge) F 3E + HE CCarnegie-Mellon? , 8 P f ( Michigan) 等 大 学 保持 
WU A. 
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体 功能 以 及 提高 安全 性 。 


最 后 ,我们 要 对 沈 教 授 表 示 最 深切 的 感谢 ,为 他 在 此 书 中 文 版 翻译 工作 
中 的 专注 与 努力 。 


r 
AJ 
< 
©? 
bi 
Ф 
3 
с) 
š 
并 
О 
© 
Ф 
ur 
@) 
©. 
a 
Ф 


谢谢 您 , 沈 教 授 。 


Andrew N. Sloss 
Dominic Symes 
Chris Wright 
2005 年 2 月 
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2004 年 7 月 ,一 个 偶然 的 机 会 ,我 去 北京 参加 美国 内 家 半导体 (NS) 公 
司 的 一 个 颂 奖 活动 ,正巧 北京 航空 航天 大 学 出 版 社 的 马 广 云 老 师 打 电话 给 
我 ,说 有 一 本 关于 ARM 软件 设计 与 优化 的 英文 原版 书 ,各 方 评价 都 很 高 ， 
是 否 可 以 帮助 翻译 。 我 看 到 这 本 原版 著作 后 ,便当 即 答应 尽快 翻译 此 书 。 
这 确实 是 本 好 书 。 


我 是 从 2000 年 开始 接触 ,使 用 ARM 处 理 器 的 。2001 # 2 月 至 2002 
年 2 月 ,我 在 加 拿 大 维多利亚 大 学 访 学 期 间 , 对 ARM 体系 结构 进行 了 分 
析 .研究 ,并 以 Cirrus Logic 的 ЕР?312 和 EP9312 为 美国 一 家 公司 做 了 两 
个 赔 人 式 无 线 应 用 的 系统 设计 。 出 于 对 髓 入 式 系 统 的 浓厚 兴趣 和 对 ARM 
处 理 髓 前 景 的 认同 , 近 几 年 ,我 和 我 们 实验 室 的 其 他 老师 ,研究 生 一 起 ,使 用 
ARM 处 理 器 设计 .开发 了 10 多 个 应 用 项 目 .产品 各 一些 软 /硬件 基础 平 
В. 软件 部 分 包括 OS 移植 .驱动 .RAT 文件 系统 .GUI、TCP/IP 网 络 协议 
Ri. WiFi(802. 11b) USB 协议 栈 , 实 时 音频 ,图 像 信 和 导 处 理 以 及 许多 应 用 软 
忻 。 涉 及 的 ARM ЖЕЛЕ Н В Samsung 的 S3C44BOX,4510,2410; Atmel 
的 AT91R40008, RM9200; Cirrus Logic 的 EP7312, EP9312; Philips 的 
LPC2106,2132,2292; OKI 的 ML674000; Analog Device 的 AduC7026; In- 
tel 的 Xscale PXA255 等 。 


多 年 对 ARM 系统 的 研究 与 实践 ,一 方面 加 深 了 我 们 对 ARM 处 理 器 
系统 的 理解 并 丰富 了 我 们 的 经 验 ; 荔 一 方面 也 使 我 们 深 深 感到 了 峰 人 式 软 
件 设 计 与 优化 的 特殊 重要 性 。 骨 和 人 式 系统 由 于 其 硬件 资源 ,成 本 的 限制 ,以 
及 一 些 实时 需求 ,许多 在 PC 等 标准 平台 上 的 软件 (包括 系统 软件 和 应 用 软 
件 ? 都 不 能 直接 搬 到 一 个 特殊 的 能 人 式 硬 件 平 台 上 ,而 必须 经 过 适当 的 裁 
3j .优化 ;否则 就 可 能 产生 很 差 的 效果 ,甚至 会 导致 系统 竣 疾 。 通 过 对 软件 
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系统 的 合理 设计 与 优化 ,可 以 降低 对 系统 硬件 资源 (如 CPU 人 性能、 存储器 
容量 等 } 的 需求 ,也 可 以 降低 系统 功 耗 ,从 而 使 一 个 不 可 行 的 系统 变 为 可 行 ， 
也 可 以 把 一 个 之 无 竞争 力 的 产品 变 得 极 有 竞争 力 ! 这 里 ,可 以 把 程序 的 优 
化 过 程 看 作 是 一 个 艺术 加 工 这 程 , 精 雕 绍 琢 ,一 步 步 把 一 个 平庸 之 作 变 成 一 
件 艺 术 癌 ,体现 出 其 真正 的 价值 。 


当 我 看 完 这 本 原版 书后 ,感觉 它 写 出 了 这 几 年 我 们 正在 研究 .摸索 而 尚 
未 能 整理 出 来 的 许多 东西 ,是 从 软件 系统 的 角度 对 ARM 系统 开发 的 一 个 
原则 性 指导 ,也 是 嵌入 式 软 件 开 发 者 从 人 门 变 为 高 手 的 一 个 必 备 指南 。 作 
者 论述 简洁 明了 ,把 原本 一 些 较 复杂 的 问题 (如 贼人 式 OS) ,只 用 很 少 的 篇 
幅 就 把 一 个 基本 框架 说 得 很 清楚 , 确 有 功底 深 摩 ,举重 车 轻 之 感 ， 书 中 论述 
的 一 些 知 识 , 方 法 和 技巧 ,也 是 做 好 一 个 砍 人 式 软 件 的 基础 。 只 有 把 许多 细 
致 的 基础 工作 司 扎 实 ,才能 众 沙 成 塔 ,编写 出 高 效 的 软件 ,创造 出 具有 竞争 力 
的 产品 。 翻 译 此 书 ,希望 能 对 目前 国内 32 位 (ARM) 嵌 人 式 系统 教学 、 研 发 热 
潮 中 的 广大 专业 技术 人 员 有 所 帮助 ,并 提升 32 位 嵌 人 式 系统 应 用 的 水 平 。 


本 书 系统 介绍 了 基于 ARM 的 软件 设计 与 优化 方法 ,知识 面 较 广 , 涉 及 
了 计算 机 学 科 的 很 多 基础 知识 ,包括 C 语言 与 汇编 请 言 程序 设计 .编译 原 
理 , 数 据 结构 ,操作 系统 .计算 机 体系 结构 .数值 计算 ,数字 信和 号 处 理 等 内 容 ; 
同时 也 给 翻译 工作 带 来 了 一 定 的 困难 ,许多 词汇 ,术语 若 按 字面 上 翻译 , 旭 
很 难 确切 地 表达 出 其 本 意 ,我 们 主要 根据 其 上 下 交 内 容 和 中 文 习惯 ,并 参照 
其 他 相关 的 中 文书 籍 ,进行 意译 。 如 5. 9 节 中 的 aligned; 译 成 “(地 址 ) 边 界 
对 齐 的 ”,endianness 译 成 “ 字 节 排列 方式 (大 /小 端 )”;6, 2 节 中 的 profiler, 
译 成 “性 能 分 析 器 ”等 。 另 外 一 些 简单 的 常用 词 ,如 load-store, ТЕ Fi 4E Ж in] 
时 不 译 ,在 用 作 动 词 时 译 成 “装载 -存储 ”, 如 “load 指令 在 装载 数据 时 ……”， 
而 不 译 成 “装载 指令 在 装载 数据 时 …… ”, X T. cache 写 策略 的 
writethrough 和 writeback, 本 书 中 分 别 译 为 * 直 写 ” 和 “问号 ”， mA AHE 
常 所 说 的 “ 写 直达 ”和 * 写 回 ”, 我 们 认为 这 样 更 简单 明了 而 贴近 原意 . 还 有 
一 些 专业 词汇 ,如 DSP 部 分 的 "tap( 抽 头 )”“biquad( 双 阶 节 )* 等 ,首次 出 现 
时 都 给 出 译文 和 英文 ,以 后 简单 而 都 能 理解 的 一 般 只 给 出 英文 ,特别 是 用 作 
单位 时 ,如 cycles/tap 和 cycles/biquad 等 。 还 有 ARMv5 和 ARMv6 体系 
结构 的 一 些 内 容 , 几 乎 找 不 到 相关 资料 可 参考 ,也 没有 实验 平台 可 以 验证 ， 
只 能 根据 我 们 的 理解 进行 翻译 ， 尺 外 ,对 于 一 些 程序 中 的 简单 注释 ,考虑 到 
此 书 并 非 入 门 级 谈 物 ,以 及 书 中 已 有 较 详细 的 说 上 :经 与 出 版 社 商 重 , 没 有 
全 部 翻译 ， 








为 了 尊重 原著 ,本 书 有 些 用 词 可 能 与 国内 一 些 书 不 太 - 致 ,例如 原著 中 
多 处 出 现 的 “processor( 处 理 宜 )”, 是 一 种 广义 的 滩 指 ,可 能 是 指 一 个 АКМ 
内 核 或 内 核 中 的 一 部 分 ,也 可 能 是 指 一 个 芯片 :另外 在 一 些 地 方 ( 如 甫 2, 10 
中 ) ,把 ARM7TDMI, ARM9TDM], ARM720T 及 ARM920T 等 都 统称 为 
“CPU 核 (eorey”。 所 以 本 书 也 不 区 分 "内核 > 与 " 核 ”。 请 读者 阅读 时 注意 。 


在 翻译 过 程 中 ,发 现 了 原著 中 的 一 些 错误 与 不 妥 之 处 ,通过 与 原作 者 多 
次 交流 并 得 到 确认 ,在 译 稿 中 已 得 到 纠正 。 还 有 一 些 标 有 "* 译 者 注 ? 的 地 方 ， 
是 我 们 根据 对 原文 的 理解 ,结合 国内 的 习惯 用 法 , 作 的 一 些 补充 说 明 。 


本 书 对 许多 问题 作 了 简明 、 细 致 的 并 还, 论述 非常 客观 .公正 。 对 一 个 
事物 的 介绍 ,总 是 结合 其 背景 或 环境 ;对 一 个 问题 的 描述 或 改进 ,一 般 也 是 
从 正 、. 反 两 方面 来 进行 , 既 说 明了 一 种 技术 ,方法 对 某 方面 的 益处 ,同时 也 指 
出 可 能 对 另 一 方面 造成 的 负面 影响 ,即使 对 ARM 处 理 器 的 介绍 ,也 并 非 全 
是 襄 奖 之 词 。 这 种 严谨 .科学 的 辩证 思维 和 工作 作风 ,更 是 值得 我 们 每 一 个 
人 学 习 并 应 身体 力行 的 。 


全 书 主要 由 笔者 翻译 并 校对 。 我 的 研究 生 张 群 忠 、 沈 颖 、 梁 丹 、 庄 世良 、 
姜 宁 . 吴 红 举 及 杨 海 波 等 参与 了 部 分 内 容 的 翻译 和 资料 整理 工作 。 我 的 同 
事 续 普 华 老师 帮助 修改 和 审核 了 第 8 音 。 我 的 同事 杨 艳 全 老师 通读 了 译 
稿 ,并 提出 了 许多 修改 建议 。 原 著 的 3 位 作者 Andrew N. Sloss, Dominic 
Symes 和 Chris Wright 及 时 提供 了 许多 帮助 ,Andrew N. Sloss Ж ИЕ 
我 们 实验 室 交 流 指导。 在 此 书 的 翻译 过 程 中 ,还 得 到 了 ARM{ 中 国 ) 总 裁 
谭 军 博士 、 费 浙 平 先生 ,北京 航空 航天 大 学 出 版 社 马 广 去 博士 , 胡 晓 柏 编辑 ， 
深圳 英 蓓 特 信 息 技 术 有 限 公司 徐 光 峰 先生 ,广州 周 立 功 单片机 发 展 有 限 公 
司 周 立功 先生 的 热情 指导 和 鼓励 。 在 此 , 谨 向 他 (她 } 们 表示 衷心 的 感谢 ， 


我 也 要 特别 感谢 我 的 家 人 一 一 妻子 藏 军 ,女儿 这 维 嘉 , 正 是 由 于 她 们 的 
无 私 帮助 和 全 力 支持 ,使 我 能 全 身心 地 投 人 到 自己 所 热爱 的 工作 之 中 ,并 在 
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Al BCAGUREDT ARA BUR Н КЖ ЪТ А, B BOE BUE EARE 
Н) AP ЗЕРИ HIRE h T B HE Ж ДИ ЖЖ ӘТ Е Е 
新 产品 。ARM 在 这 一 方面 表现 尤为 突出 。 在 过 去 的 10 年 中 ,ARM 体系 
结 梅 已 成 为 世界 上 最 受 丈 迎 的 32 位 体系 结构 ,在 本 书 完成 时 ,基于 ARM 
的 处 理 器 已 发 告 了 超过 20 亿 片 。ARM 处 理 器 已 被 嵌入 到 各 种 产品 一 一 
从 移动 电话 到 汽车 刹车 系统 。 全 球 的 ARM 合作 伙伴 和 第 三 方 殿 应 商 ,在 
半导体 和 产品 设计 公司 中 迅速 发 展 壮 大 ,包括 硬件 工程 师 ,系统 设计 人 员 和 和 
软件 开发 人 员 。 但 至 今 还 没有 一 本 书 能 够 较 好 地 满足 基于 ARM ШЕ Ах 
系统 及 软件 开发 的 需要 ,本 书 将 填补 这 一 空白 。 


本 书 的 目标 是 ,从 一 名 产品 开发 者 的 角度 来 描述 ARM 内 核 的 操作 ,重点 
放 在 软件 设计 上 。 由 于 本 书 是 专门 写 给 有 一 些 嵌 人 式 系统 开发 经 验 而 可 能 
对 ARM 体系 结构 不 热 熏 的 工程 师 的 ,所 以 不 变 求 有 以 前 的 ARM 开发 经 验 。 


为 了 帮助 读者 尽快 地 学 以 致 用 , 书 中 包含 了 一 系列 ARM 软件 范例 。 
它们 可 以 被 集成 到 商业 产品 中 ,或 者 作为 模板 以 快速 创建 应 用 软件 。 这 些 
范例 都 已 编号 ,读者 可 以 在 Morgan Kaufmann 出 版 社 的 网 站 上 方便 地 找到 
这 些 源 代码 ,对 于 有 ARM 开发 经 验 而 想 要 获得 ARM 系统 最 高 效能 的 人 
来 说 ,这 些 代码 同样 具有 价值。 


本 书 的 结构 





本 书 开头 部 分 简要 介绍 了 ARM 处 理 器 的 设计 原则 ,说 明了 它 与 传统 
RISC 思想 的 区 别 及 其 原因 。 第 1 章 还 介绍 了 基于 ARM АВНЕ А 
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人 式 系统 。 

第 2 章 进 一 步 深入 到 硬件 ,介绍 了 АКМ 处 理 器 核 ,并 综述 了 当前 市 场 
上 的 ARM 内 核 。 

第 3 章 和 第 4 章 分 别 介绍 了 ARM 和 Thumb 指令 集 ,也 为 本 书后 面 的 
内 容 打下 基础 ;有 一 些 关键 指令 的 解释 ,包括 完整 的 例子 ,因此 这 2 章 可 以 
看 作 是 指令 集 的 使 用 指南 。 

通过 我 们 在 协助 ARM 客户 工作 时 开发 的 许多 例子 ,第 5 章 和 第 os 
讲述 了 如 和 何 编写 高 将 的 代码 。 第 5 章 讲述 了 在 ARM 体系 结构 上 编写 可 以 
被 高 效 编译 的 习 代码 的 技巧 和 规则 。 这 些 技巧 和 规则 已 得 到 了 证 实 ,并 且 
有 助 于 确定 哪些 代码 应 该 被 优化 。 第 6 章 详 述 了 编写 和 优化 ARM 汇编 代 
码 的 最 佳 方法 ,这 对 于 通过 降低 系统 功 耗 和 时 钟 频率 来 改善 系统 性 能 是 至 
关 重 要 的 。 

由 于 在 许多 算法 中 都 用 到 一 些 基 本 操作 ,所 以 如 何 优化 它们 是 很 值得 
研究 的 。 第 7 章 讨论 了 如 何 针 对 ARM 处 理 器 优化 基本 操作 。 该 章 木 仅 提 
供 了 实现 一 般 基 本 操作 的 优化 参考 , 而 且 为 想得到 一 种 快速 参考 方法 的 使 
用 者 提供 了 更 加 复杂 的 数学 运算 的 优化 参考 。 对 于 想 要 深 人 研究 各 个 实现 
的 读者 ,还 提供 了 所 需 的 理论 知识 。 

媒人 式 音频 和 视频 系统 应 用 的 需求 正在 日 益 增 长 。 它 们 需要 数字 信号 
处 理 (DSP) 能 方 , 直 到 最 近 , 这 种 处 理 能 力 一 般 仍 是 由 狼 立 的 DSP 芯片 提 
供 的 ， 然 而 ,现在 ARM 体系 结构 提供 了 更 高 的 存储 只 带宽 和 快速 奢 累 加 
运算 ,使 得 仅 用 一 个 ARM 内 核 的 设计 就 能 支持 这 些 应 用 。 第 8 EBERT 
如 何 尽 可 能 改善 ARM 在 数字 处 理应 用 方面 的 性 能 以 及 怎样 实现 DSP 
算法 。 


异常 处 理 是 嵌入 式 系统 的 核心 。 高 效 的 异常 处 理 能 够 大 大 改善 系统 的 
性 能 。 第 9 章 以 一 系列 翔实 的 范例 介绍 了 异常 处 理 和 中 断 的 理论 与 实践 ， 


园 件 是 所 有 嵌入 式 系 统 的 重要 部 分 。 在 第 10 章 中 ,通过 我 们 设计 的 、 
称 为 Sandstone 的 一 个 简单 固件 包 , 介 绍 了 固件 的 结构 和 设计 ， 本 章 还 介 
绍 了 一 些 可 以 运行 在 ARM 上 的 流行 的 .工业 固件 包 。 

第 li 章 以 我 们 设计 的 、 称 为 简单 小 操作 系统 (CSLOS) 的 一 个 简单 周 人 
式 操 作 系统 为 例 , 示 范 了 典 人 式 操作 系统 的 实现 方法 ， 


第 12,13,14 章 重 点 关注 存储 系统 。 第 12 章 讨论 了 围绕 ARM 内 核 的 各 
种 cache 技术 ,演示 了 带 cache 的 特定 ARM 处 理 器 的 cache 控制 例 程 ,第 13 
章 讨论 了 存 情 器 保护 单元 (MPU)。 第 14 章 讨 论 了 存 情 器 管理 单元 CMMU) ， 

















最 后 ,在 第 15 章 , 展 望 了 ARM 体系 结构 的 末 来 ,重点 讲述 今后 几 年 内 
ARM 指令 集 的 发 展 方向 和 正在 实现 的 新 技术 。 
附录 提供 了 详细 的 指令 集 参考 .周期 定时 以 及 特定 的 ARM 产品 。 
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网 上 的 范例 


如 前 所 述 , 本 书 有 大 量 的 经 过 测试 的 实用 程序 ,可 以 帮助 强化 有 关 概 念 
和 方法 。 它 们 在 Morgan Kaufmann 出 版 社 的 网 站 上 http://www. mkp. 
com/companions/1558608745 可 以 找到 ， 
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ARM 嵌入 式 系 统 开 发 


在 许多 成 功 的 32 {К А ЖР, ARM 处 理 器 都 是 其 核心 组 成 部 分 。 也 许 大 家 还 没 
有 意识 到 ,自己 身边 可 能 就 有 基于 ARM 处 理 器 的 产品 。ARM 内 核 已 被 广泛 应 用 于 移动 电 
话 、 掌 上 设备 以 及 种 类 繁多 的 便携 式 消费 类 产品 中 。 

从 1985 年 第 一 个 ARMI 原型 诞生 至 今 ,ARM 的 设计 者 们 经 历 了 漫长 的 探索 之 路 。 到 
2001 年 底 , 已 经 有 超过 10 亿 个 ARM 处 理 器 被 销售 到 了 世界 各 地 。ARM 公司 的 成 功 建立 
在 一 个 简单 而 又 强大 的 原始 设计 之 上 , 随 着 技术 的 不 断 创新 ,这 个 设计 也 在 不 断 改进 。 事 实 
上 ,ARM 内 核 并 不 是 单一 的 ,而 是 一 个 遵循 相同 设计 理念 和 使 用 相同 指令 集 的 内 核 系列 。 

例如 ,最 成 功 的 ARM 内 核 之 一 ARM7TDMI, 具有 最 高 120 Dhrystone MIPS ( 注 ， 
Dhrystone MIPS version 2. 1 是 一 个 小 的 基准 测试 程序 ) 的 性 能 ,高 的 代码 密度 和 低 功 耗 等 
特性 ,使 它 成 为 移动 嵌入 式 设备 的 最 佳 选择 。 | 

在 第 1 章 中 ,首先 介绍 ARM 是 如 何 采用 RISC( 精 简 指令 集 计 算 机 ) 的 设计 思想 ,创造 
出 一 个 灵活 的 处 理 器 结构 的 ;然后 通过 介绍 一 个 嵌入 式 设 备 的 实例 ,讨论 围绕 ARM 处 理 器 
的 典型 的 软 硬 件 相 关 技 术 。 


1.1 RISC 设计 思想 
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ARM 内 核 采用 RISC 体系 结构 。RISC 是 一 种 设计 思想 ,其 目标 是 设计 出 一 套 能 在 高 
时 钟 频率 下 单 周 期 执行 ,简单 而 有 效 的 指令 集 。RISC 的 设计 重点 在 于 降低 由 硬件 执行 的 
指令 的 复杂 度 , 这 是 因为 软件 比 硬件 容易 提供 更 大 的 灵活 性 和 更 高 的 智能 。 因 此 ,RISC 设 
计 对 编译 器 有 更 高 的 要 求 ; 相 反 ,传统 的 复杂 指令 集 的 计算 机 (CISC) 则 更 侧重 于 硬件 执行 
指令 的 功能 性 ,使 CISC 指令 变 得 更 复杂 。 图 1. 1 比较 了 两 者 的 主要 不 同 。 


CISC RISC 
ма) Оф 
生成 代码 





т 


CISC 强调 硬件 的 复杂 性 ;RISC 注重 编译 器 的 复杂 性 
图 1.1 CISC 对 RISC 
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RISC 设计 思想 主要 由 下 面 4 个 设计 准则 来 实现 。 

e AERIS 处 理 器 减少 了 指令 种 类 。RISC 的 指令 种 类 只 提供 简单 的 操作 ,使 
一 个 周期 就 可 以 执行 一 条 指令 。 编 译 器 或 者 程序 员 通过 几 条 简单 指令 的 组 合 来 实 
现 一 个 复杂 的 操作 (例如 ,除法 操作 )。 每 条 指令 的 长 度 都 是 固定 的 ,允许 流水 线 在 
当前 指令 译 码 阶段 去 取 其 下 一 条 指令 ;而 在 CISC 处 理 器 中 , 指 今 的 长 度 通 常 不 轩 
定 ,执行 也 需要 多 个 周期 。 

e 菠 藉 线 一 一 指令 的 处 理 过 程 被 拆 分 成 儿 个 更 小 的 .能 够 被 流水 线 并 行 执行 的 单元 。 
在 理想 情况 下 ,流水 线 每 周期 前 进一步 ,可 获得 最 高 的 否 吐 率 ! 而 CISC 指令 的 执行 
需要 调用 微 代码 的 一 个 微 程序 。 

e d ———ЕК15С 处 理 器 拥有 更 多 的 通用 寄存 器 。 每 个 寄存 器 都 可 在 放 数据 或 地 
址 。 寄 存 器 可 为 所 有 的 数据 操作 提供 快速 的 局 部 存 情 访 问 ;而 CISC 处 理 器 都 是 用 
于 特定 目的 的 专用 寄存 器 。 

@ load-store 故 和 葵 一 一 处 理 器 只 处 理 寄存 器 中 的 数据 。 独 立 的 load 和 store 指令 用 来 
完成 数据 在 寄存 器 和 外 部 存储 器 之 间 的 传送 。 因 为 访问 存储 器 很 邦 时 ,所 以 把 存 情 
黑 访 问 和 数据 处 理 分 开 。 这 样 有 一 个 好 处 , 那 就 是 可 反复 地 使 用 保存 在 寄存 器 中 的 
数据 ,而 避免 多 次 访问 存储 器 。 相 反 ,在 CISC 结构 中 ,处 理 器 能 够 直接 处 理 存 储 器 
中 的 数据 ，。 


这 些 设 计 准 则 ,使 得 RISC 结构 的 处 理 器 更 为 简单 ,因此 内 核能 够 工作 在 更 高 时 钟 频 
率 。 相 反 ,传统 的 CISC 处 理 器 因为 结构 更 为 复杂 ,只 能 工作 在 较 低 的 时 钟 频率 。 然 而 ,经 
过 20 多 年 的 发 展 ,CISC 处 理 咒 也 引入 了 许多 RISC 的 设计 思想 ,RISC 和 CISC 之 条 的 界线 
已 经 变 得 越 来 越 模 糊 了。 
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1.2 ARM 设计 思想 


有 许多 客观 需求 促进 了 ARM 处 理 器 的 设计 改进 。 首 先 , 便 携 式 的 媒人 入 式 系统 往往 需 
要 电池 供电 。 为 降低 功 耗 ,ARM 处 理 器 已 被 特 吻 设计 成 较 小 的 核 ,从 而 延长 了 电池 的 使 用 
时 间 。 特 别 是 对 于 某 些 应 用 ,如 移动 电话 和 个 人 数字 助理 (PDAs) 等 ,这 一 点 是 非常 重要 的 。 

高 的 代码 密度 是 嵌入 式 系统 的 又 一 个 重要 需求 。 由 于 成 本 问题 和 物理 尺寸 的 限制 , 赔 
人 式 系 统 的 存储 器 是 很 有 限 的 。 所 以, 高 的 代码 密度 对 于 那些 只 限于 在 板 存储 器 的 应 用 是 
非常 有 帮助 的 ,例如 移动 电话 和 海量 存 情 设 备 等 。 

舅 外 , 典 入 式 系 统 通常 都 是 价格 敏感 的 ,因此 一 般 都 使 用 速度 不 高 ,成 本 较 低 的 存储 器 。 
对 于 数码 相机 之 类 的 大 宗 产 品 ,在 设计 时 每 一 分 成 本 都 需要 考虑 。 因 此 , 若 处 理 器 能 使 用 低 
成 本 的 存储 器 ,将 大 大 降低 系统 成 本 。 
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另外 一 个 重要 的 需求 就 是 要 缩小 嵌 人 式 处 理 器 内 核 答 芭 (die) 的 面积 。 对 于 一 个 单 片 
方案 ,处理 器 内 核 所 占用 的 面积 越 小 , 留 给 外 设 电 路 的 空间 就 越 大 。 这 可 以 减少 最 终 产 癌 的 
外 围 芒 片 数 目 ,从 而 降低 设计 和 制造 成 本 ， 

ARM 处 理 器 中 己 经 集成 了 硬件 调试 抠 术 ,因此 软件 工程 师 们 能 够 观察 到 处 理 器 在 执 
行 代码 时 的 具体 情况 。 这 种 更 高 的 可 视 性 ,使 得 软件 工程 师 们 能 够 更 快速 地 解决 问题 。 这 
对 缩短 产品 上 市 时 间 有 直接 的 效果 ,从 而 降低 了 系统 的 整体 开发 成 本 。 

ARM 内 核 不 是 一 个 纯粹 的 RISC 体系 结构 ,这 是 为 了 使 它 能 够 更 好 地 适应 其 主要 应 用 
领域 一 一 嵌 人 式 系统 .在 基 种 意义 上 ,甚至 可 以 认为 ARM 内 核 的 成 功 , 正 是 因为 它 没有 在 
RISC 概念 上 这 人 太 深 。 现 在 系统 的 关键 并 不 在 于 单纯 的 处 理 器 速度 ,而 在 于 有 效 的 系统 
性 能 和 功 耗 。 


[Bn C] ER A A EE fr SE 
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为 了 使 ARM 指令 集 能 够 更 好 地 满足 同人 式 应 用 的 需要 ,ARM 指令 集 和 单纯 的 RISC 
E UB LT JUI REP fj 

e —JÉ REB OB Lm АВН В ARM j + ЖЕ ШИ. Gu. E 
寄存 器 装载 / 存 铺 的 load/store 指令 的 执行 周期 就 是 不 确定 的 ,须根 据 被 传送 的 寄 
存 器 个 数 而 御 。 如 果 是 访问 连续 的 存储 器 地 址 ,就 可 以 改善 性 能 ,因为 连续 的 内 容 
访问 通常 比 随机 访问 要 快 ， 同时 ,代码 密度 也 得 到 了 提高 ,因为 在 函数 的 起 始 和 结 
尾 , 多 个 寄存 器 的 传输 是 很 常用 的 操作 ，。 

e ARREBB UAE E T EH Z8 — WEBB S ET EE E — 
WASTA ЯФ ЯП. P CREE ER f SR UT DL AE EE ORE ERU CHR. 
它 扩展 了 许多 指令 的 功能 ,以 此 改善 了 内 核 的 性 能 ,提高 了 代码 密度 。 我 们 将 在 第 
2--4 章 中 详细 讲解 这 一 特性 。 

€ Thumb 16 KRSR — ARM 内 核 增 加 了 一 套 称 之 为 Thumb 指令 的 16 位 指令 
集 ,使 得 内 核 既 能 够 执行 16 位 指令 ,也 能 够 执行 32 位 指令 ,从 而 增强 了 ARM WE 
的 功能 。16 位 指令 与 32 位 的 定 长 指令 相 比 较 , 代 码 密 度 可 以 提高 约 3096. 

9 疼 作 商行 一 一 只 有 当 某 个 特定 条 件 满足 时 指令 才 会 被 执行 。 这 个 特性 可 以 减少 分 
支 指令 的 数目 ,从 而 改善 了 性 能 ,提高 了 代码 密度 ， 

ӨНЕ — 一 些 功能 强大 的 数字 信号 处 理 器 (DSP) 指 令 被 加 入 到 标准 的 ARM 指 
令 之 中 ,以 支持 快速 的 16X16 位 乘法 操作 及 饱和 运算 。 在 某 些 应 用 中 ,传统 的 方法 
ТЗН Е DSP 才能 实现 。ARM 的 这 些 增强 指令 ,使 得 ARM 处 理 器 也 能 
够 满足 这 些 应 用 的 需要 。 


这 些 增 加 的 特性 使 得 ARM 处 理 器 成 为 当今 最 通用 的 32 КА ХАН, 
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许多 世界 著名 的 半导体 公司 都 在 制造 基于 ARM 内 核 的 产品 。 


1.3 ”嵌入 式 系 统 的 硬件 





嵌入 式 系统 可 控制 各 种 不 同 的 设备 ,从 生产 线 上 的 小 传感器 ,到 NASA 太空 探测 器 中 
的 实时 控制 系统 。 所 有 的 这 些 设备 都 是 一 些 软件 和 硬件 部 件 的 组 合 。 每 一 个 部 件 的 选择 都 
要 考虑 到 效率 ;而 且 如 果 可 行 ,设计 时 还 需要 考虑 将 来 的 扩展 性 和 延伸 性 。 

图 1. 2 所 示 为 一 个 典型 的 使 用 ARM 内 核 的 嵌入 式 器 件 。 每 一 个 方 框 表示 了 一 个 功能 
或 特性 。 方 框 之 间 的 连 线 是 传送 数据 的 总 线 。 
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图 1.2 一 个 微 控制 器 一 一 基于 ARM 的 嵌入 式 器 件 


可 以 把 这 个 器 件 分 为 以 下 4 个 主要 的 硬件 部 分 。 

© ARM 处 青豆 一 一 控制 整个 器 件 。 有 多 种 版 本 的 ARM 处 理 器 ,以 满足 不 同 的 处 理 
特性 。 一 个 ARM 处 理 器 包含 了 一 个 内 核 (执行 引擎 ,用 来 执行 指令 和 操纵 数据 ) 以 
及 一 些 外 围 部 件 ,它们 之 间 由 总 线 连接 。 这 些 部 件 可 能 包括 存储 器 管理 和 cache, 

e 戎 秽 诲 一 一 协调 系统 的 重要 功能 模块 。 两 个 常见 的 控制 器 是 中 断 控制 器 和 存储 器 
控制 器 。 

e 外 设 一 一 提供 芯片 与 外 部 的 所 有 输入 /输出 功能 ,器 件 之 间 的 一 些 独 有 特性 就 是 靠 
不 同 的 外 设 来 体现 的 。 
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1.3.1 ARM 总 线 技术 





BRA EX E НЯ x86 PC A [a] I d £R EUR. PCl Peripheral Component Intercon- 
nect) 总 线 技术 是 一 种 最 常见 的 PC 总 线 技术 ,用 于 把 诸如 图 形 显 示 适 配 跨 和 硬盘 控制 器 等 
连接 到 x86 处 理 器 总 线 。 这 是 一 种 PC 机 主板 上 的 外 部 或 片 外 总 线 ( 这 种 总 线 也 定义 了 外 
部 设备 与 系统 连接 的 机 械 和 电气 特性 ) . 

相反 ,知人 式 设 备 使 用 芯片 内 的 片上 总 线 ,允许 不 同 的 外 围 器 件 能 够 和 ARM 内 核 
互联 。 

有 两 种 不 同类 型 的 逻辑 设备 连接 到 总 线 :ARM 姓 理 器 是 总 线 主 设备 (master) 一 一 拥 
有 对 总 线 的 仲裁 权 ,通过 同一 总 线 , 该 逻辑 设备 可 主动 发 起 数据 传输 请 求 ;外围 器 件 是 总 线 
从 设备 (slave) 一 一 在 总 线 上 是 被 动 的 ,逻辑 设备 只 能 对 主 设备 发 出 的 一 个 传输 请 求 作出 
反应 。 

总 线 可 分 为 两 个 结构 层 :第 一 层 是 物理 层 , 定 头 一 些 电气 特征 和 总 线 宽 度 (16,32 或 64 
位 ?# 第 二 层 是 协议 层 (protocolD ,定义 了 处 理 器 各 外围 设 备 之 间 进 行 数据 通信 的 逻辑 规则 ， 

ARM 主要 是 一 个 艺 片 设计 会 司 , 它 几乎 不 实现 具体 的 总 线 电 气 特 性 ,但 它 详细 地 定义 
了 总线 协 议 。 


1.3.2 AMBA 总 线 协 议 
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高 级 微 控制 总 线 结构 (AMBA) 于 1996 年 被 提出 ,并 被 ARM 处 理 器 广泛 用 作 片 上 总 线 
结构 。 最 初 的 АМВА 总 线 包含 ARM 系统 总 线 (ASB) 和 ARM 外 设 总 线 (APB)。 之 后 ， 
ARM 公司 提出 了 男 一 种 总 线 设 计 , 称 为 ARM 高 性 能 总 线 (AHB) 。 使 用 AMBA ,外 设 设计 
者 可 在 多 个 项 目 中 重复 使 用 同一 设计 。 由 于 已 有 大 量 的 基于 AMBA 接口 设计 的 外 设 , 因 
此 硬件 世 片 说 计 者 可 从 已 做 过 测试 和 验证 的 外 设 中 做 广泛 的 选择 同样 ,一 个 外 设 也 可 以 
被 简单 地 连接 到 片上 总 线 ,而 不 需要 为 不 同 的 处 理 器 结构 重新 设计 接口 。 这 种 即 插 即 用 的 
接口 提高 了 硬件 开发 者 的 设计 效率 ,并 缩短 了 产品 上 市 时 间 ， 

AHB 能 够 提供 比 ASB 更 高 的 数据 吞吐 率 ,因为 它 不 同 于 ASB 的 双向 总 线 设 计 ， 
AHB 是 基于 集中 多 总 线 机 制 C(centralized multiplexed bus scheme) BJ, ix fp 4848 AHB 
总 线 能 够 在 更 高 的 时 钟 速度 下 运行 ,并 成 为 第 一 个 支持 64 位 和 128 位 宽度 的 ARM BA 
ARM 的 AHB 总 线 结构 还 引 人 了 两 个 变 体 ,多 层 AHB 和 AHB-Lite。 原 来 的 AHB 在 任何 
时 候 都 只 允许 一 个 主 设备 活动 在 总 线 圭 ,而 多 层 AHB 允许 多 个 活动 的 总 线 主 设备 ，AHB- 
Lite 是 标准 AHB 总 线 的 一 个 子 集 ,也 只 人 允许 一 个 总 线 主 设备 。 这 种 总 线 是 针对 那些 不 需 
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要 标准 AHB 全 部 特性 的 情况 而 设计 的 。 

标准 AHB 和 多 层 AHB 的 主 从 协议 是 相同 的 ,但 有 不 同 的 互联 。 多 层 AHB 新 的 互联 
有 利于 多 处 理 器 系统 , 它 允 许 并 发 操作 和 更 高 的 吞吐 率 。 

在 图 1. 2 所 示例 子 的 器 件 中 有 3 条 总 线 : 一 条 AHB 总 线 连接 高 性 能 的 片 内 外 设 ; 一 条 
APB 总 线 连接 较 慢 的 片 内 外 设 ; 第 3 条 总 线 用 于 连接 片 外 的 外 设 ,这 条 总 线 不 一 定 都 存在 ， 
在 这 个 例子 中 是 有 的 ,这 条 外 部 总 线 需要 一 个 特殊 的 桥 , 用 于 和 AHB 总 线 连 接 。 


1.3.3 存储 器 


一 个 嵌入 式 系 统 必 须 有 一 定 的 存储 器 来 存放 和 执行 代码 。 在 决定 存储 器 的 层次 、 宽 度 
和 类 型 等 特性 时 ,必须 综合 考虑 价格 ,性 能 和 功 耗 等 因素 。 如 果 为 了 获得 所 需要 的 带宽 , 存 
储 器 的 运行 速度 必须 提高 1 倍 ,那么 功 耗 也 会 提高 


几乎 所 有 的 计算 机 系统 的 存储 器 结构 都 是 分 层 的 。 图 1. 2 显示 的 是 一 个 支持 片 外 存储 
器 的 器 件 。 处 理 器 内 部 有 一 个 可 选 的 cache( 在 图 1. 2 中 没有 画 出 ) , 它 可 以 提高 存储 器 
的 性 能 。 

图 1. 3 显示 了 一 些 存储 器 指标 之 间 的 关系 (trade-offs) :最 快 的 存储 器 cache, 其 物理 位 
置 上 最 靠近 ARM 处 理 器 核 ;而 最 慢 的 辅助 存储 器 则 处 在 较 远 的 位 置 。 通 常 越 靠近 处 理 器 
核 的 存储 器 就 越 昂贵 ,容量 也 越 小 。 

cache 位 于 主 存 和 内 核 之 间 , 用 于 提高 处 
理 器 和 主 存 之 间 的 数据 传输 速度 。cache 改 cache 
善 了 系统 的 总 体 性 能 ,但 也 使 代码 的 执行 时 
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间 变 得 不 可 预测 ,对 实时 系统 响应 也 没有 什 х 主 存 
么 帮助 。 因 此 在 许多 小 型 的 嵌入 式 系 统 中 ， i 辅助 存储 器 
并 不 需要 使 用 cache 来 优化 性 能 。 
主 存 的 容量 较 大 一 一 256 KB~256 MB " IMB 1GB 
(甚至 更 大 ) ,根据 具体 的 应 用 而 定 ,通常 是 一 存储 容量 





些 独立 的 芯片 。load/store 指令 存 取 数 据 
时 ,如 果 数 据 在 cache 中 , 则 快速 访问 cache; 图 1.3 存储 器 指标 关系 图 (trade-offs) 
否则 就 访问 主 存 。 在 各 级 存储 器 中 ,辅助 存 

储 器 容量 最 大 ,但 速度 最 慢 , 例 如 硬盘 和 CD-ROM 等 存储 设备 。 如 今 的 辅助 存储 器 的 容量 
可 以 从 600 MB 到 上 百 GB, 
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存储 器 的 数据 宽度 是 指 每 次 访问 所 返回 的 数据 位 数 一 一 典型 的 有 8,16,32 和 64 位 。 
存储 器 宽度 对 系统 整体 的 性 价 比 会 有 直接 的 影响 。 

如 果 一 个 没有 cache 的 系统 使 用 32 位 ARM 指令 和 16 位 宽度 的 存储 器 芯片 , 则 处 理 器 
每 次 取 指 就 需要 2 个 16 位 的 存储 器 访问 ,这 显然 会 降低 系统 的 性 能 ,但 16 位 宽度 的 存储 器 
价格 会 相对 便宜 。 

与 之 相 比 ,如 果 内 核 执行 16 位 的 Thumb 指令 , 则 对 于 16 位 宽度 的 存储 器 将 获得 更 好 
的 性 能 ,因为 处 理 器 获取 每 条 指令 只 需 一 次 存储 器 访问 。 因 此 ,对 于 16 位 宽度 的 存储 器 ,使 
用 Thumb 指令 可 获得 性 能 和 成 本 两 方面 的 优势 。 

表 1.1 总 结 了 当 使 用 不 同 宽度 的 存储 器 时 ,理论 上 获取 一 条 指令 所 需要 的 周期 数 。 


表 1.1 从 存储 器 取 指 
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指令 长 度 8 位 存储 器 16 位 存储 器 32 位 存储 器 
ARM 32 位 4 周期 2 周期 1 周期 
Thumb 16 位 2 周期 1 周期 1 周期 


存储 器 的 类 型 很 多 ,在 本 小 节 中 ,我 们 将 介绍 一 些 基于 ARM 的 典 人 入 式 系统 较 常 用 的 存 
储 器 。 

© ПТИ ROM(Read-Only Memory) ”在 所 有 类 型 的 存储 器 中 ,ROM 是 最 不 灵 
活 的 一 种 ,因为 它 里 面 的 内 容 是 在 生产 时 就 固定 的 ,不 可 再 次 编程 来 改变 。ROM Ж 
应 用 于 不 需要 更 新 和 修改 内 容 的 大 宗 产品 ,也 有 许多 设备 使 用 ROM 来 存放 启动 
代码 。 

e Flash КОМО {#) ” 既 可 以 读 ,也 可 以 写 。 但 是 它 写 的 速度 较 慢 ,因此 不 适合 存放 
动态 数据 。 它 主要 用 于 存放 设备 固件 (firmware) 和 断 电 后 仍 需 长 期 保存 的 数据 。 
对 Flash ROM 的 擦 除 和 改写 是 完全 由 软件 实现 的 ,不 需要 任何 的 硬件 电路 ,这 样 降 
低 了 制造 成 本 。Flash ROM 已 经 成 为 当前 最 流行 的 只 读 存储 器 ,可 选择 Flash 
ROM 用 于 满足 对 存储 器 的 大 容量 需求 或 用 于 构建 辅助 存储 器 。 

e Zl СОКАМ) 是 设备 中 最 为 常用 的 RAM。 和 其 它 类 型 的 RAM 
相 比 , 它 每 兆 字 节 (MB) 的 价格 最 低 。DRAM 动态 地 一 一 需要 定时 地 (ms 级 ) 刷 新 
存储 单元 ,因此 在 使 用 DRAM 前 , 先 要 设置 好 DRAM 控制 器 。 

e #& tl JF f##(SRAM) KER DRAM 要 快 ,但 它 需要 更 大 的 硅 片面 积 。 
SRAM 是 静态 的 一 一 不 需要 刷新 。SRAM 的 存 取 时 间 比 DRAM 要 短 得 多 ,因为 
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SRAM 在 数据 访问 之 间 不 需要 暂停。 由 于 它 价格 较 高 ,因此 通常 用 于 容量 小 .速度 
快 的 情况 ,如 高 速 存储 器 和 Cache。 

e /]2У5 ИТА СОКАМ) 是 众多 DRAM 种 类 中 的 一 种 。 它 能 够 工作 
在 比 普通 存储 器 更 高 的 时 钟 频率 下 。 因 为 SDRAM 使 用 时 钟 ,所 以 它 和 处 理 器 总 线 
是 同步 的 。 数 据 从 存储 元 (memory cell) 被 流水 化 地 取出 ,最 后 突 发 式 (burst) 地 输 
出 到 总 线 。 以 前 老 的 DRAM 是 异步 的 ,不 能 像 SDRAM 这 样 突 发 式 高 效 传输 。 


1.3.4 外 ig 


嵌 人 式 系统 和 外 界 交互 需要 一 定形 式 的 外 设 。 外 设 通过 和 片 外 其 它 设备 或 传感器 的 连 
接 来 实现 芯片 的 输入 /输出 功能 。 每 一 个 外 设 通常 都 只 有 单一 的 功能 ,也 可 以 内 置 在 芯片 
上 。 外 设 种 类 很 多 ,可 从 一 个 简单 的 串 行 通信 设备 到 非常 复杂 的 802. 11 无 线 设备 。 

所 有 的 ARM 外 设 都 是 存储 器 映射 的 一 一 编程 接口 是 一 组 对 应 于 某 些 存储 器 地 址 的 寄 
存 器 。 这 些 寄存 器 的 地 址 是 从 某 个 特定 外 设 的 基地 址 开始 的 偏 移 量 。 

控制 器 是 特殊 的 外 设 ,可 在 一 个 嵌入 式 系统 中 实现 更 高 层 的 功能 。 两 个 重要 类 型 的 控 
制 器 就 是 存储 器 控制 器 和 中 断 控制 器 。 


各 种 不 同类 型 的 存储 器 通过 存储 器 控制 器 连接 到 处 理 器 总 线 上 ， 上 电 时 ,存储 器 控制 
器 由 硬件 配置 ,使 得 某 些 存储 器 处 于 工作 状态 。 这 些 存储 器 允许 执行 初始 化 代码 ， 有 些 存 
储 器 必须 通过 软件 设置 才能 使 用 ,比如 在 使 用 DRAM 之 前 ,必须 首先 设置 存储 器 定时 和 出 
Жж, 


当 一 个 外 设 或 器 件 需要 服务 时 , 它 就 向 处 理 器 提出 一 个 中 断 请 求 。 中 断 控制 器 提供 一 
套 可 编程 的 管理 机 制 ,使 软件 通过 设置 中 断 控制 寄存 器 中 的 相应 位 ,来 决定 在 任何 特定 时 
刻 , 娜 一 个 外 设 或 器 件 可 以 中 断 处 理 器 。 

ARM 处 理 器 有 两 种 中 断 控 制 器 :标准 的 中 断 控制 器 和 向 量 中 断 寄 存 器 (VIC) 。 

标准 中 断 控制 器 在 一 个 外 部 设备 需要 服务 时 ,发 送 一 个 中 断 请 求 信号 给 处 理 器 核 。 控 
制 器 可 以 通过 编程 设置 来 忽略 或 屏蔽 某 个 或 某 些 设备 的 中 断 请 求 。 中 断 处 理 程序 读 取 在 中 
断 控制 器 中 与 各 设备 对 应 的 表示 中 断 请 求 的 寄存 器 内 容 ,从 而 判断 哪个 设备 需要 服务 ， 

VIC 比 标准 中 断 控制 器 的 功能 更 为 强大 ,因为 它 区 分 中 断 的 优先 级 ,简化 了 判断 中 断 
源 的 过 程 。 每 个 中 断 都 有 相应 的 优先 级 和 处 理 程序 地 址 ,只 有 当 一 个 新 的 中 断 优先 级 高 于 
当前 正在 执行 的 中 断 处 理 优先 级 时 ,VIC 才 向 内 核 提出 中 断 请 求 ， 根据 类 型 的 不 同 , VIC 
可 以 调用 标准 的 中 断 异 常 处 理 程序 。 该 程序 能 够 从 VIC 中 读 取 设备 的 处 理 程序 的 地 址 ,也 
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可 使 内 核 直接 跳 转 到 设备 的 处 理 程序 执行 。 


1.4 ЛЕКИН 


一 个 嵌入 式 系统 需要 软件 来 实现 具体 的 应 用 。 图 1. 4 中 所 示 的 4 个 软件 部 分 是 嵌入 式 
设备 软件 的 典型 构成 。 从 底层 的 硬件 设备 层 往 上 ,每 个 软件 层次 逐 层 封装 代码 ,使 代码 与 硬 
件 设 备 分 离 。 

初始 化 代码 是 在 板 上 最 先 被 执行 的 代码 ,是 针对 一 个 或 一 组 特定 的 目标 而 定制 的 。 它 
在 把 控制 权 交 给 操作 系统 之 前 ,初始 化 板 上 的 最 基本 部 分 设备 。 

— Do 操作 系统 提供 了 一 个 基础 框架 来 控制 应 用 
程序 和 管理 硬件 系统 资源 。 许 多 工人 式 系统 都 
不 需要 一 个 完整 的 操作 系统 ,而 只 需要 一 个 由 事 
件 或 轮 询 驱 动 的 简单 任务 调度 器 。 

— Í 设备 驱动 是 图 1. 4 中 所 示 的 第 3 个 组 成 部 

图 1.4 在 硬件 上 执行 的 软件 层次 Soe 

е 

最 后 ,一 个 应 用 程序 完成 一 个 设备 所 需 的 某 个 任务 。 例 如 ,移动 电话 可 能 需要 一 个 日 志 
的 应 用 程序 。 操 作 系 统 可 以 对 同一 个 设备 上 运行 的 多 个 应 用 程序 进行 统一 管理 。 

各 个 软件 部 分 都 可 在 ROM 或 RAM 中 运行 。ROM 代码 是 固定 在 设备 上 的 (例如 初始 
化 代码 ) ,被 称 之 为 历 伯 (firmware) 。 


1.4.1 初始 化 (启动 ) 代 码 
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初始 化 代码 (或 启动 代码 ) 使 处 理 器 从 复位 状态 进入 到 操作 系统 能 够 运行 的 状态 。 它 通 
常 须 配 置 存储 器 控制 器 .处理 器 cache 和 初始 化 一 些 设备 。 在 一 个 简单 的 系统 中 ,操作 系统 
可 被 一 个 简单 的 任务 调度 器 或 调试 监控 器 所 代替 。 

初始 化 代码 在 把 控制 权 交 给 操作 系统 之 前 , 须 处 理 许多 管理 任务 。 我 们 可 以 把 这 些 不 
同 的 任务 划分 为 3 个 阶段 :初始 化 硬件 配置 .诊断 和 引导 。 

初始 化 硬件 配置 包括 设置 目标 平台 ,使 之 能 够 引导 一 个 映像 文件 (image, 后 续 执行 的 二 
进 制 代码 )。 尽 管 目标 平台 复位 时 自己 有 一 个 标准 的 配置 ,但 是 这 个 配置 通常 须 修改 ,以 满 
足 被 引导 的 映像 文件 的 需求 。 例 如 ,存储 系统 通常 需要 重新 组 织 存储 器 映射 (memory 
map) ,如 例 1. 1 所 述 。 

诊断 通常 包含 在 初始 化 代码 中 。 诊 断代 码 用 来 检测 系统 ,通过 测试 硬件 目标 来 检测 其 
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工作 是 否 正常 。 同 时 它 也 检测 标准 的 系统 相关 的 事件 。 测 试 发 生 在 软件 产品 完成 后 ,因此 
这 种 测试 对 于 生产 制造 是 非常 重要 的 。 诊 断代 码 的 主要 目的 是 识别 和 隔离 故障 。 

引导 过 程 包括 了 装载 一 个 映像 文件 并 将 控制 权 交 给 它 。 如 果 系 统 必须 引导 不 同 的 操作 
系统 或 者 同一 个 操作 系统 的 不 同 版 本 ,那么 引导 过 程 本 身 就 可 能 很 复杂 。 

局 动 一 个 映像 文件 是 最 后 一 个 阶段 ,但 首先 必须 装载 这 个 映像 文件 。 装 载 一 个 映像 广 
件 的 过 程 可 以 是 拷贝 包括 代码 和 数据 的 整个 程序 到 RAM 中 ,也 可 以 只 拷贝 包含 易 变 (vola- 
tile) 变 量 的 数据 区 到 RAM 中 。 一 旦 启动 ,系统 通过 更 改 程序 计数 器 (pc) 指 向 映像 文件 的 
起 始 地 址 ,将 控制 权 交 出 。 

有 时 ,为 了 减 小 映像 文件 ,映像 文件 会 是 压缩 过 的 。 在 这 种 情况 下 , 当 映 像 文 件 被 装载 ， 
或 者 当 控制 权 递 交 给 它 时 ,映像 文件 要 被 解压 。 

【 例 1.1] 初始 化 或 组 织 存储 器 是 初始 化 代码 中 的 一 个 重要 部 分 ,因为 许多 操作 系统 
在 开始 运行 之 前 ,希望 了 解 存储 器 的 组 织 情况 。 

图 1.5 对 比 了 存储 器 在 重新 组 织 前 /后 的 情况 。 对 于 基于 ARM 的 嵌入 式 系统 来 说 , 通 
常 都 会 提供 存储 器 重 映射 , 因 为 它 允 许 系统 上 电 后 立刻 从 ROM 中 开始 运行 初始 化 代码 。 
然后 ,初始 化 代码 会 重新 定义 或 重 构 存 储 器 映射 ,把 RAM 空间 放 在 地 址 0x00000000。 这 
一 步 很 重要 ,因为 这 样 异 常 向 量 表 就 在 RAM 中 ,并 可 以 被 程序 改写 了 我 们 将 在 2. 4 节 中 
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详细 讨论 向 量 表 。 
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81,5 存储 器 重 映 射 (remapping) 
1.4.2 操作 系统 


VG AG SEEDS MER HER E DRE A T LA, 操作 系统 组 织 系统 资源 :外 设 、 存 储 器 
和 处 理 时 间 。 有 了 操作 系统 的 管理 ,不 同 的 应 用 程序 在 操作 系统 环境 下 就 可 以 高 效 地 使 用 
这 些 资 源 。 
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ARM 处 理 器 支持 超过 50 种 操作 系统 ,可 以 把 操作 系统 划分 为 两 大 类 ;实时 操作 系统 
(RTOS) 和 平台 操作 系统 。 

RTOS 保证 对 事件 的 响应 时 间 。 不 同 的 旭 作 系统 对 系统 的 响应 时 间 有 不同 的 控制 。 一 
个 弄 实时 的 应 用 需要 一 个 完全 被 保证 的 响应 时 间 ; 相 反 ,-- 个 软 实 时 的 应 用 只 需要 一 个 较 好 
的 响应 时 间 , 但 是 如 果 响 应 超时 , 则 系统 性 能 将 会 大 大 下 降 。 运 行 RTOS 的 系统 通常 没有 
辅助 存储 器 。 

平台 操作 系统 需要 一 个 存储 管理 单元 (MMU) 来 管理 庞大 的 非 实时 应 用 ,而 且 通 常 都 
有 辅助 存储 做 。Linux 澡 作 系统 就 是 平台 操作 系统 的 一 个 典型 例子 ， 

这 两 类 操作 系统 也 并 非 相 互 排外 的 ,有 一 些 宫 作 系统 使 用 ARM 内 核 , 带 有 内 存 管理 单 
元 ;同时 也 具有 实时 特性 。ARM 针对 每 一 类 操作 系统 都 已 经 开发 出 一 系列 的 处 理 器 核 。 


1. 4. 3 应 用 程序 
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操作 系统 调度 应 用 程序 一 一 为 处 理 某 个 特定 任务 的 代码 。 一 个 应 用 析 序 完成 一 个 处 理 
任务 ;操作 系统 控制 整个 运行 环境 。 一 个 腾 入 式 系 统 可 以 只 有 一 个 活动 的 应 用 ,也 可 以 好 几 
个 应 用 同时 在 运行 。 

ARM 处 理 右 被 应 用 到 众多 的 市 场 领域 ,包括 网 络 、 汽 车、 移动 和 消费 类 电子 设备 ,海量 
存储 设备 及 图 像 等 。 每 一 个 领域 中 ,又 可 以 找到 ARM 的 很 多 应 用 ， 

例如 ,在 网 络 应 用 中 ,比如 家 庭 网 关 、 高 速 因特网 通信 中 的 DSL 调制 解 调 器 以 及 802. 11 
无 线 通信 等 ,都 存在 ARM 处 理财 。 移 动 电话 使 移动 式 设备 市 场 成 为 ARM 处 理 器 应 用 最 
广泛 的 领域 。 在 海量 存储 设备 中 也 有 ARM 处 理 器 的 应 用 ,比如 硬盘 驱动 器 和 图 像 产品 ,如 
喷 契 打印 机 一 一 这 些 应 用 都 是 成 本 敏感 和 数量 众多 的 。 

然而 ,在 需要 尖端 高 性 能 的 应 用 中 ,并 没有 ARM 处 理 器 的 身影 。 这 是 因为 这 些 应 用 通 
常数 量 很 少 而 成 本 很 高 ,ARM 公司 并 不 以 这 种 类 型 的 应 用 为 目标 进行 设计 ， 
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纯粹 的 RISC 是 以 高 性 能 为 主要 目标 的 ,但 ARM 采用 的 是 一 种 改进 的 RISC 设计 思 
想 ,其 目标 是 较 高 的 代码 密度 和 较 低 的 功 耗 。 一 个 嵌 人 式 系统 通常 包含 了 一 个 处 理 器 核 , 周 
[ЫН Cache ,存储器 和 外 设 。 操 作 系统 控制 整个 系统 ,管理 应 用 程序 任务 

RISC 设计 思想 的 关键 是 通过 简化 指令 的 复杂 度 来 提高 性 能 ,使 用 流水 线 来 加 速 指 令 
的 处 理 ,提供 大 量 的 寄存 器 来 存 情 数 据 , 并 使 用 load-store 结构 ， 

ARM 设计 思想 也 包含 了 一 些 非 RISC 的 观念 或 方法 ， 





e ПЕОН OTE ,以 降低 功 耗 , 减 小 面积 和 代码 尺寸 ; 

e 3L THOSE ЖҮ ЖЕЕ ФЕ: 

e 使 用 16 (zB Thumb fd SE ЖАЫ МШЕ; 

e FIAT EG TS TORRE ЕДЕ: 

e (HUE ES ESCBUBHERG ЕЛЕ RE. 

一 个 基于 ARM НАЖА R6 ULT OE (HB Ay fe Н КАЕМ 4h 
Ж ;程序 员 通过 存储 器 映射 地 址 的 寄存 器 来 访问 的 欠 训 ;一 种 特殊 类 型 的 外 设 , 被 称 为 花 
HA ,使 洪 入 式 系统 可 实现 诸如 存 入 器 管理 和 中 断 控制 等 高 层 功 能 ; 片 内 的 AMBA 总线 把 
处 理 器 和 外 设 连 接 在 一 起 。 

一 个 髋 人 式 系 统 包 含 以 下 的 软件 组 成 部 分 ; 却 妆 龙 代 站 配 置 硬件 到 一 个 确定 的 状态 ; 初 
始 化 成 功 后 , 鼎 作 系统 就 能 够 被 装载 和 执行 ,操作 系统 提供 一 个 通用 的 编程 环境 ,以 便 备 种 
应 用 能 高 效 地 使 用 系统 的 硬 忻 资源 ; 诊 务 狠 动 给 外 设 提供 一 个 标准 的 程序 接口 А 
序 完 成 媒人 式 系统 的 某 个 特定 任务 ， 
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2 ARM 处 理 器 基础 


第 1 章 介 绍 了 基于 ARM 处 理 器 的 典 入 式 系 统 。 本 章 将 重点 介绍 处 理 器 本 身 。 首 先 ， 
概述 处 理 器 内 核 以 及 数据 在 内 核 各 组 成 部 分 之 间 是 如 何 移动 的 ,从 软件 开发 者 的 角度 描述 
ARM 处 理 器 的 编程 模型 ,这 可 以 说 明 处 理 器 内 核 的 功能 及 其 不 同 部 分 之 间 的 相互 作用 ;还 
将 介绍 基于 ARM 处 理 器 的 内 核 扩充 ,内 核 扩 充 不 仅 扩 展 了 指令 集 , 而 且 有 效 地 组 织 和 加 速 
了 主 存 (main memory) ;还 将 从 ARM 内 核 的 命名 规则 简 述 ARM 内 核 结构 的 不 同 版 本 (re- 
vision) ,并 将 按照 时 间 顺 序 介 绍 ARM 指令 集结 构 的 变化 ;最 后 将 按照 ARM 处 理 器 内 核 系 
列 的 分 类 来 介绍 其 结构 实现 。 

程序 员 可 把 ARM 内 核 看 作 是 由 数据 总 线 连接 的 各 功能 单元 组 成 的 集合 ,如 图 2. 1 所 
示 。 这 里 箭头 代表 了 数据 的 流向 ,直线 代表 了 总 线 , 方 框 表示 操作 单元 或 存储 区 域 。 这 个 图 
不 仅 说 明了 数据 流向 ,也 说 明了 组 成 ARM 内 核 的 各 个 逻辑 要 素 。 








地 址 
ENS A 


图 2.1 ARM 内 核 的 数据 流 模型 


数据 通过 数据 总 线 进入 处 理 器 核 ， 这 里 所 指 的 数据 可 能 是 一 条 要 执行 的 指令 或 一 个 数 
据 项 。 图 2. 1 显示 了 一 个 冯 “， 诺 伊 最 (von Neumann) 结 构 的 ARM 实现 一 一 数据 和 指令 共 
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享 同 一 总 线 ; 与 此 相反 , 险 佛 (Harvard) 结 构 的 ARM 实现 使 用 二 条 不 同 的 总 线 。 
指令 译 码 器 在 指令 执行 前 先 将 它们 稻 译 。 每 一 条 可 执行 指令 者 属于 一 个 特定 的 指 





与 所 有 的 RISC 处 理 器 一 样 ,ARM 处 理 器 采用 load-store 体系 结构 。 这 就 意 陈 着 它 只 
有 两 种 类 型 的 指令 用 于 把 数据 移入 / 称 出 处 理 器 ,load 指令 从 存储 器 复制 数据 到 内 核 的 寡 
ff sk i BUSDK store 指令 从 寄存 器 里 复制 数据 到 存储 器 。 没 有 直接 操作 存储 器 数据 的 数据 
处 理 指令 ,因此 ,数据 处 理 只 能 在 寄存 器 里 进行 。 

数据 项 存储 在 寄存 器 文件 里 一 一 一 组 32 位 的 寄存 器 存储 体 (storage bank), H + 
ARM 内 核 是 32 位 处 理 器 ,大 部 分 带 令 认为 寄存 器 中 保存 的 是 32 位 有 符号 或 无 符号 数 。 
当 从 存 铺 器 读 取 数 据 至 一 个 寄存 办 时 ,符号 扩展 硬件 会 把 8 位 和 16 位 的 有 符号 数 转换 成 
32 位 。 

典型 的 ARM 指令 通常 有 2 个 源 寄存 器 Rn 和 Rm.1 个 结果 或 目的 寄存 器 Rd。 源 操作 
数 分 别 通过 内 部 总 线 A 和 了 从 寄存 器 文件 中 读 出 。 

ALUKA EE 475) Ў MACOR SUI ECL GE BER A 和 了 得 到 寄存 器 值 Rn 和 Rm, 
并 计算 出 一 个 结果 。 数 据 处 理 指令 直接 把 Rd 中 的 计算 结果 写 到 寄存 器 文件 。looad store 
指令 使 用 ALU 来 产生 一 个 地址 ,这 个 地 址 将 被 保存 到 地 址 寄存 器 并 发 送 到 地 址 总 线 上 。 

ARM 的 一 个 重要 特征 是 ,寄存 器 Rm 可 以 选择 在 进入 ALU 前 是 否 先 经 过 桶 形 移 位 器 
预 处 理 。 桶 形 移 位 项 和 ALU 协作 可 以 计算 较 大 范围 的 表达 式 和 地 址 ， 

在 经 过 有 关 功 能 单元 后 ,Rd 寄存 器 里 的 结果 值 通过 结果 总 线 (result bus) 写 回 到 寄存 
器 文件 。 对 于 load-store 指令 ,在 内 核 从 下 一 个 连续 的 存储 器 单元 装载 数据 到 下 一 个 寄存 
器, 或 写 下 一 个 寄存 器 的 值 到 下 一 个 连续 的 存储 器 单元 之 前 ,地 址 加 法 器 会 自动 更 新 地 址 寄 
仓 器 。 处 理 大 连续 执行 指令 ,直到 发 生 异 常 或 中 断 而 改变 了 正常 的 执行 流 。 

对 处 理 器 内 核 有 了 一 个 总 体 认 识 后 , 接 下 来 我 们 将 详细 介绍 处 理 器 的 各 关键 部 件 ;寄存 
器 ,当前 程序 状态 寄存 器 (cpsr) 及 流水 线 ,. 


2.1 寄存 器 
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通用 寄存 器 可 保存 数据 和 地 址 。 它们 用 字母 r 为 前 雏 吉 该 寄存 器 的 序号 来 标识 ， 例 
如 :寄存 器 4 可 表示 成 rt。 图 2.2 列 出 了 在 用 户 模式 (aser mode, — Ph ЕДГ 
执行 应 用 程序 ) 下 的 有 效 活动 寄存 器 。 处 理 器 可 以 在 ? 种 不 同 的 模式 下 运行 ,我 们 将 会 作 简 
要 介绍 。 所 有 的 寄存 器 都 是 32 位 的 。 

最 多 可 有 18 个 活动 寄存 器 :16 个 数据 寄存 器 和 2 个 处 再 器 状态 寄存 器 。 程 序 员 可 见 
的 数据 害 存 器 是 r07-r15, 





ARM 处 理 器 为 特殊 的 任务 或 专门 的 功能 指定 了 
3 个 寄存 器 :rl3,rl4 和 r15。 它 们 通常 被 赋予 不 同 的 标 
识 , 以 区 别 于 其 它 寄 存 器 。 

在 图 2. 2 里 ,有 阴影 的 寄存 器 是 有 特殊 用 途 的 寄 


存 器 : 
e 寄存 器 r13 通常 用 作 堆 栈 指针 (sp) ,保存 当前 处 
理 器 模式 的 堆栈 的 栈 项 ; 
e 寄存 器 rl4 又 被 称 为 链接 寄存 器 (1r) ,保存 调用 
子 程序 的 返回 地 址 ; 


e 寄存 器 r15 是 程序 计数 器 (pc) ,其 内 容 是 处 理 器 
要 取 的 下 一 条 指令 的 地 址 。 


根据 具体 的 应 用 场合 ,寄存 器 113 和 r14 也 可 以 用 作 
通用 寄存 器 ,有 时 这 会 特别 有 用 ,因为 在 处 理 器 模式 改变 
时 ,这 些 寄存 器 是 被 分 组 备份 的 。 但 是 若 处 理 器 上 运行 
有 任何 形式 的 操作 系统 ,把 r13 当 作 通用 寄存 器 是 很 危 
险 的 ,这 是 因为 操作 系统 通常 认为 r13 始终 指向 一 个 有 
效 的 栈 结构 。 

在 ARM 状态 下 ,寄存 器 10113 是 正 交 及 (orthog- 
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图 2.2 在 用 户 模式 下 的 有 效 寄存 器 


ona1) 一 一 任何 指令 如 果 可 使 用 r0, 那 么 也 就 可 使 用 其 它 寄 存 器 。 但 是 ,有 些 指令 是 以 特殊 


的 方式 来 对 待 rl4 RI 115 的 。 


除了 16 个 数据 寄存 器 ,还 有 2 个 程序 状态 寄存 器 :cpsr 和 spsr( 分 别 是 当前 和 备份 的 程 


序 状态 寄存 器 ) 。 


寄存 器 文件 包含 所 有 程序 员 可 利用 的 寄存 器 。 哪 些 寄存 器 对 程序 员 是 可 见 的 ,取决 于 


当前 的 处 理 器 模式 。 


2.2 


当前 程序 状态 寄存 器 


ARM 内 核 使 用 cpsr 来 监视 和 控制 内 部 的 操作 。cpsr 是 寄存 器 文件 中 一 个 专用 的 32 位 


寄存 器 。 图 2. 3 说 明了 一 般 程 序 状态 寄存 器 的 基本 格式 。 
注意 : 阴影 部 分 是 为 将 来 扩展 保留 的 。 


cpsr 分 为 4 个 8 位 区 域 :标志 域 ,状态 域 .扩展 域 和 控制 域 。 在 目前 的 设计 中 ,扩展 和 状态 
域 保留 ,以 便 将 来 使 用 。 控 制 域 包 含 处 理 器 模式 ,状态 和 中 断 屏蔽 位 ;标志 域 包含 条 件 标志 位 。 
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标志 位 状态 扩展 控制 
«р “= ү = ——3À 
5 4 0 


位 31 30 29 28 7 6 
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图 2.3 通用 程序 状态 寄存 器 (psr) 


一 些 ARM 处 理 器 内 核 有 额外 的 位 分 配 。 例 如 ,在 标志 域 里 的 J 位 只 存在 于 Jazelle 使 
能 的 处 理 器 中 ,该 类 处 理 器 可 执行 8 位 的 指令 。 我 们 将 在 2. 2. 3 小 节 更 多 地 讨论 Jazelle, 
未 来 的 设计 中 , 极 有 可 能 为 新 功能 的 监测 和 控制 分 配额 外 的 位 。 

关于 cpsr 的 完整 介绍 请 参照 附录 B。 


2.2.1 处 理 器 模式 
18 处 理 器 模式 决定 了 哪些 寄存 器 是 活动 的 以 及 对 cpsr 的 访问 权 。 处 理 器 模式 要 么 是 特 
权 模 式 , 要 么 是 非特 权 模式 。 特 权 模式 允许 对 cpsr 的 完全 读 / 写 访问 ;与 此 相反 ,非特 权 模 
式 只 允许 对 cpsr 的 控制 域 进行 读 访问 ,但 允许 对 条 件 标志 的 读 / 写 访 问 。 

具体 共有 7 种 处 理 器 模式 。6 种 特权 模式 : 中 止 (abort) 模 式 、 中 断 (interrupt request) 
模式 ,快速 中 断 (fast interrupt request) 模 式 、 管 理 (supervisor) 模 式 、 系统 (system) 模 式 、 未 
定义 (undefined) 模 式 ;1 种 非特 权 模式 一 一 用 户 (user) 模 式 。 

当 处 理 器 访问 存储 器 失败 时 ,进入 数据 访问 中 止 模式 (abort) ;中 断 模式 和 快速 中 断 模 
式 分 别 对 ARM 处 理 器 两 种 不 同 级 别 的 中 断 作出 响应 ;处 理 器 复位 以 后 ,进入 管理 模式 , 操 
作 系 统 内 核 也 通常 处 于 这 种 模式 ;系统 模式 是 一 种 特殊 的 用 户 模式 ,允许 对 cpsr 的 完全 读 / 
写 访问 ; 当 处 理 器 遇 到 没有 定义 的 指令 或 处 理 器 不 支持 该 指令 时 ,进入 未 定义 模式 ;用 户 模 
式 运行 应 用 程序 。 


2.2.2 分 组 寄存 器 


图 2.4 列 出 了 寄存 器 文件 里 所 有 37 个 寄存 器 。 当 然 ,在 不 同 的 时 刻 有 20 个 寄存 器 对 
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程序 是 隐藏 的 。 这 些 寄存 器 被 称 为 分组 等 郑 静 ， 即 图 中 所 示 的 阴影 部 分 。 只 有 当 人 处理 器 处 
于 某 种 特定 模式 时 ,它们 才 有 效 ,例如 ,中 止 模 式 使 用 分 组 寄存 器 r13_abt,rl4_abt 和 spsr_ 
abt。 一 种 特定 模式 所 对 应 的 分 组 寄存 器 采用 这 种 方法 来 表示 :寄存 器 _ 模 式 标记 。 模 式 标 
记 可 以 是 ;fiq,irq,svc,undef 及 abt 等 。 
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图 2.4 全 部 的 ARM 寄存 器 


除 用 户 模式 外 ,每 一 种 处 理 器 模式 都 可 通过 改写 cpsr 中 的 模式 位 来 改变 。 除 系统 模式 
外 ,所 有 处 理 器 模式 都 有 一 组 各 自 的 分 组 寄存 器 ,它们 是 16 个 主要 寄存 器 的 子 集 。 每 个 分 
组 寄存 器 与 一 个 用 户 模式 的 寄存 器 对 应 。 如 果 改 变 处 理 器 的 模式 ,新 模式 的 一 个 分 组 寄存 
名 将 取代 原来 模式 的 分 组 寄存 器 。 

例如 , 当 处 理 器 处 于 中 断 模式 时 ,执行 的 指令 仍然 可 访问 名 字 是 rl13 和 r14 的 寄存 器 ， 
但 实际 上 它们 是 分 组 寄存 器 r13_irq 和 rl4_irq。 用 户 模式 的 r13_usr 和 rl4_usr 不 会 受到 
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影响 。 程 序 仍然 可 以 正常 访问 寄存 器 r0—r12, 

处 理 器 模式 既 可 以 通过 程序 直接 改写 cpsr( 处 理 器 内 核 必须 处 于 特权 模式 ) 来 切换 ,也 
可 以 当 内 核对 异常 或 中 断 响应 时 由 硬件 切换 。 下 面 的 异常 和 中 断 会 导致 模式 切换 :复位 、 外 
设 中 断 请 求 . 快 速 中 断 请 求 .软件 中 断 .数据 访问 中 止 . 预 取 指 中 止 和 未 定义 指令 。 异 常 和 中 
断 将 挂 起 顺序 指令 的 正常 执行 ,并 跳 转 到 一 个 特定 的 地 址 。 

图 2.5 显示 了 当 一 个 中 断 导 致 模式 切换 时 所 发 生 的 情况 。 当 一 个 外 设 向 处 理 器 核发 出 
中 断 请 求 而 产生 中 断 时 ,内 核 从 用 户 模式 切换 到 中 断 模式 。 这 个 改变 使 用 户 寄存 器 r13 和 
rl4 被 保护 。 用 户 寄存 器 113 和 rl4 分 别 被 寄存 器 rl3_irq 和 rl4_irq 所 代替 。 
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中 断 请 求 模式 





图 2.5 异常 导致 的 模式 改变 
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注意 ; liin ATERA, 5 rl3_irq HER EP EA LR HALE E, 


图 >.5 中 也 显示 了 在 中 断 模 式 中 的 一 个 新 寄存 器 :备份 程序 状态 寄存 器 (spsr) UL E 
了 先前 处 理 器 模式 的 epsr。 从 图 中 可 以 看 到 ,epsr 被 复制 到 spsr_ira。 为 了 同 到 用 户 模 式 ， 
须 使 用 一 条 特殊 的 返回 指令 ,指示 内 核 从 spsr_irq 恢复 原来 的 cpsr, 同 时 切换 回 先前 受 保 护 
PHP SER 38 г14, 

注意 ; АЖ ЁЁ НАЖ ТТФ ДИЙ sps E PAX TS 8рет, 


另 一 个 值得 注意 的 特点 是 , 当 通 过 程序 直接 改写 epsr 来 切换 模式 时 ,cpsr 不 会 被 复制 
到 spst。 只 有 当 一 个 异常 或 中 渐 发 生 暑 , 才 保 存 cpsr。 

图 2.3 显示 了 当前 活动 的 处 理 器 模式 占据 cpsr 的 低 5 位 。 上 电 后 从 管理 模式 开始 。 
从 一 个 特权 模式 开始 是 很 有 用 的 ,因为 初始 化 代码 可 以 完全 访问 cpsr, 以 设置 其 它 各 模式 的 
iEn. 

ж 2,1 列 出 了 各 种 处 理 器 模式 ,最 后 一 列 给 出 了 cpsr 中 代表 每 一 种 处 理 器 模式 的 二 进 
制 码 。 
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5921 ЖЕНИХ 

Ж x & GÇ — 4 к ха.) 

中 止 abt É 10111 

快速 中 断 请 求 fiq E 10001 

BW R irq 是 10010 

"om sve 是 10011 21 
系 Я ays k 11111 

REX und 是 11011 

ШОР usr x 10000 





2.2.3 状态 和 指令 集 


内 核 的 状态 决定 了 处 理 器 将 执行 忆 种 指令 集 。 有 3 种 指令 集 ; ARM, Thumb 和 Ja- 
zelle。 只 有 当 处 理 器 处 于 ARM 状态 时 ,ARM 指令 集 才 有 效 ;同样 ,只 有 当 处 理 器 处 于 
Thumb 状态 时 ,Thumb 指令 才 有 效 。 一旦 处 于 Thumb 状态 ,处 理 器 就 纯粹 执行 16 位 的 
Thumb 指令 。 不 能 把 ARM, Thumb 和 Jazelle 指令 混合 使 用 。 

在 cpsr 中 的 JUazelie) 和 T(Thumb) 位 反映 了 处 理 器 的 状态 ， 当 工 位 和 】 位 都 为 0 
时 ,处 理 器 处 于 ARM 状态 ,执行 ARM 指令 ,这 是 处 理 器 上 电 时 的 默认 状态 。 若 THE, 
则 处 理 器 处 于 Thumb 状态 。 为 了 改变 状态 ,内 核 要 执行 专门 的 分 支 指令 ， 表 2.2 对 ARM 
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和 Thumb 指令 集 的 特征 作 了 比较 ， 
#2.2 ARM fü Thumb 指令 集 特 征 





项 ARM(cpsr T=0) Thumb(epst T— 1) 

指令 长 度 32 {ў 16 fi 

内 核 指令 58 条 30 条 

ART хаж 只 有 分 支 指令 

数据 处 理 指 令 ШЕВ ALU НЕИН АЮ 
程序 状态 寄存 器 ERRATE E 不 能 直接 访问 

寄存 器 使 用 15 个 通用 寄存 器 十 pe 8 个 通用 寄存 器 十 ? 个 高 寄存 器 十 pc 


Ж. 条 忻 执 行 可 参见 2.2. 6 JW, 


ARM 设计 者 引进 了 第 3 种 指令 集 ,被 称 为 Jazelle。Jazelle 执行 8 位 指令 , 它 是 一 个 软 
件 与 硬件 的 混合 体 ,能 够 加 速 Java 字 节 码 (bytecodes) 的 执行 。 

为 了 执行 Java 字 节 码 , 需 要 Jazelle 技术 外 加 一 个 Java 虚拟 机 的 特殊 修订 版 。 特 别 要 
注意 的 是 ,Jazelle 的 硬件 部 分 只 支持 Java 字 节 码 的 一 个 子 集 ,其余 的 由 软件 仿真 。 

Jazelle 指令 集 是 一 个 封闭 的 指令 集 , 没 有 公开 。 表 2. 3 给 出 了 Jazelle 指令 集 的 一 些 
ЖЕ. 
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3 2,3 Jazelle Е 
项 g Jazelle(epsr T20,]— 1) 
ЖКЖ 8 fu 
内 核 指 令 ЖЕЕ ТЕЛ ЖИЗ] 607689 Java 字 节 代码 ,其 余 代 码 击 软件 完成 
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2.2.4 中 断 屏 项 


中 断 屏 项 位 用 来 禁止 某 些 中 断 请 求 来 中 断 处理 器 。ARM 处 理 器 内 核 有 2 个 级 别 的 中 
断 请 求 一 一 中 断 请 求 IRQ 和 快速 中 断 请 求 FIQ。 


cpsr 有 2 个 中 断 屏 项 位 ,位 7 和 位 6( 或 和 F)。 它 们 分 别 控制 IRQ 和 FIQ 的 中 断 屏 
项 I 位 设置 为 1 时 ,屏蔽 IRQ; 同 样 ,F 位 设置 为 1 时 ,屏蔽 FIQ. 


2.2.5 条 件 标志 


条 件 标志 由 比较 指令 或 带 有 后 纺 S 的 ALU 操作 结果 来 设置 。 例 如 ,如 果 一 条 SUBS 
减法 指令 产生 了 一 个 结果 为 0 的 寄存 器 值 ,那么 cspr 中 的 Z 标 志 就 被 置 位 ， 
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在 有 DSP 扩展 的 ARM 内 核 中 ,Q 位 表示 增强 的 DSP 指令 是 否 发 生 了 溢出 或 他 和 。 该 
位 由 硬件 自动 设置 ,不 能 由 硬件 自动 清除 。 要 清除 这 一 位 ,必须 由 软件 直接 写 cpsr。 

在 有 Jazelle 扩展 的 处 理 器 中 ,J 位 反映 了 内 核 的 状态 : 若 置 位 , 则 内 核 处 于 Jazelle 状 
&. J 位 并 不 是 都 有 用 的 , 它 只 对 于 某 些 处 理 器 内 核 有 效 。 为 了 使 用 Jazelle, 需 要 从 ARM 
公司 和 Sun Microsystem 公司 获得 许可 ,以 得 到 额外 的 软件 。 

КАЖ АКМ 指令 可 根据 条 件 标志 位 进行 条 件 执行 。 表 2. 4 列 出 了 各 条 件 标志 位 及 如 
何 产生 置 位 的 简短 说 明 。 这 些 标志 位 位 于 cpsr 的 高 5 位 ,被 用 于 条 件 执行 。 

表 2.4 条 件 标 志 





志 位 ， 标志 名 置 位 条 件 

Q ш 和 结果 导致 一 个 溢出 和 /或 饱和 
V № 出 结果 导致 一 个 有 符号 数 滋 出 
C 
Z 
N 
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进 位 结果 导致 一 个 无 符号 数 进位 
T 结果 是 0, 常 用 在 指示 相等 与 否 
负 数 结果 的 第 31 位 为 1 


2. 6 给 出 了 对 于 具有 DSP 扩展 和 Jazelle 的 cpsr 典型 值 。 本 书 中 将 采用 符号 来 表示 
cpsr 的 值 ,以 便 阅 读 。 如 果 某 一 位 置 1, 则 用 大 写字 母 表示 ; 若 某 一 位 为 0, 则 用 小 写字 母 表 
m. 对 于 条 件 标志 位 ,大 写字 母 表示 该 标志 已 被 置 位 ;对 于 中 断 屏蔽 位 ,大 写字 母 表示 该 中 


ЮК. 
7654 0 


P3 


SVC 
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31 30 29 28 27 24 


—— | 


nzCvq i 








图 2.6 例子 : cpsr = nzCvqjiFt SVC 
在 图 2.6 所 示 的 例子 中 ,C 标志 位 是 惟一 置 位 的 条 件 标志 位 ,其 余 标志 位 nzvq 全 都 为 
0。 处 理 器 处 于 ARM 状态 ,因为 J 和 位 均 为 0， IRQ 中 断 被 使 能 (enabled) ,FIQ 中 断 被 
禁止 。 最 后 ,从 图 中 可 以 看 出 ,处 理 器 处 于 管理 模式 (SVC) 下 ,因为 模式 位 [4,0] 为 10011, 
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2.2.6 条 件 执 行 








条 件 执 行 控 制 内 核 是 否 将 会 执行 一 条 指令 。 大 多 数 指令 都 有 一 个 条 件 属性 ,再 根据 条 
件 标 志 位 的 情况 ,决定 内 核 是 否 执 行 该 指令 。 在 执行 前 ,处 理 器 比较 该 条 件 属性 和 cpsr 的 


条 件 标志 位 : MWELE ,指令 就 被 执行 ;否则 指令 被 忽略 。 


条 件 属性 作为 指令 助 记 符 的 后 织 被 编码 进 指令 。 表 2. 5 列 出 了 条 件 执行 代码 助 记 符 ， 
厅 没 有 条 忻 符号 , 则 默认 为 无 条 件 (AL) 执 行 。 


яж 
EQ 
NE 
C8 HS 
CC LO 
MI 
PL 
VS 
VC 
HI 
LS 
GE 
LT 
GT 
LE 
AL 


2.3 流水 线 


#25 НЕНЕН 


# Ж 

m 等 

不 相等 

进位 置 位 /元 符号 数 大 于 或 等 于 
进位 清除 /无 符号 数 小 于 
^ k 

非 负 数 

№ H 

xd 

AT SEXT 

无 符号 数 小 于 或 等 于 
有 符号 数 大 于 或 等 于 
有 符号 数 小 于 

有 符 导 数 大 于 

有 符号 数 小 于 或 等于 
AXIS 


Z 5c 
NY 或 nv 
Nv ik nV 
NzV 或 nav 
Zz 或 Nv 或 nV 
Sow 





流水 线 是 RISC 处 理 器 执行 指令 时 采用 的 机 制 。 使 用 流水 线 , 可 在 取 下 一 条 指令 的 癌 
时 译 码 和 执行 其 它 指 令 , 从 而 加 快 执行 速度 。 可 以 把 流水 线 看 作 是 汽车 生产 线 ,每 个 阶段 只 


完成 一 项 专门 的 生产 任务 。 
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图 2.7 显示 了 一 个 3 级 流水 线 ; 

e 取 指 (fetch) 一 一 从 存储 器 装载 一 条 指令 ; 

© 译 码 (decode) 一 一 识别 将 被 执行 的 指令 ; 

@ 执行 (excute) 一 一 处 理 指令 并 把 结果 写 回 寄存 器 。 


D 





图 2.7 ARM7 的 3 级 流水 线 


图 2.8 通过 一 个 简单 的 例子 说 明了 流水 线 的 机 制 。 在 第 1 个 周期 ,内 核 从 存储 器 取出 
指令 ADD; 在 第 2 个 周期 ,内 核 取出 指令 SUB, 同 时 对 ADD 指令 译 码 ;在 第 3 个 周期 ,指令 
SUB 和 ADD 都 沿 流水 线 移动 ,ADD 指令 被 执行 ,而 SUB 指令 被 译 码 , 同 时 又 取出 СМР 指 
令 。 流 水 线 使 得 每 个 时 钟 周 期 就 可 以 执行 一 条 指令 。 

随 着 流水 线 深度 (级 数 ) 的 增加 ,每 一 段 的 工作 量 被 削减 了 ,这 使 得 处 理 器 可 以 工作 在 更 
高 的 频率 ,同时 也 改善 了 性 能 。 但 系统 延 时 (latency) 同 样 也 增加 了 ,这 是 因为 在 内 核 执行 
一 条 指令 前 ,需要 更 多 的 周期 来 充填 流水 线 。 流 水 线 级 数 的 增加 也 意味 着 在 某 些 段 之 间 会 
产生 数据 相关 。 可 使 用 指令 调整 技术 来 编写 代码 ,以 减少 数据 相关 (关于 指令 调整 的 更 多 信 
息 参见 第 6 章 ) 。 





图 2.8 流水 线 指令 顺序 


每 种 ARM 系列 的 流水 线 设计 都 有 差异 。 例 如 ,ARM9 内 核 把 流水 线 深度 增加 到 5 级 ， 
如 图 2.9 所 示 。ARM9 增加 了 存储 器 访问 段 和 回 写 段 ,这 使 得 АКМО 的 处 理 能 力 可 达到 平 
33 1. 1 Dhrystone MIPS/MHz, 5 ARM? 相 比 ,指令 吞吐 量 增加 了 约 13%, 。 同 时 ,ARM9 内 
核能 达到 的 最 高 频率 也 更 高 。 | 
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图 2.9 ARM9 的 5 级 流水 线 

ARM10 更 是 把 流水 线 的 深度 增加 到 6 级 ,如 图 2. 10 所 示 。ARM10 的 平均 处 理 能 力 
可 达到 1. 3 Dhrystone MIPS/MHz, 5j ARM? 相 比 ,指令 吞吐 量 提高 了 约 34% ;但 同样 有 较 
大 的 系统 延 时 。 


图 2.10 ARM10 的 6 级 流水 线 


虽然 ARM9 和 ARM10 的 流水 线 不 同 ,但 它们 使 用 了 与 ARM7 相同 的 流水 线 执行 机 
制 ,因此 ARM? 上 的 代码 也 可 以 在 ARM9 和 ARMIO 上 运行 。 


流水 线 执行 的 特点 


ARM 流水 线 的 一 条 指令 只 有 在 完全 通过 “执行 ”阶段 才 被 处 理 。 例 如 ,一 条 ARM? W 
水 线 ( 有 3 级 ) 只 有 在 取 第 4 条 指令 时 ,第 1 条 指令 才 完 成 执行 。 

2.11 反映 了 ARM? 流水 线 上 的 指令 顺序 。MSR 指令 用 来 使 能 IRQ 中 断 , 这 只 有 在 
MSR 指令 完成 流水 线 的 “执行 ”阶段 后 才 有 效 。 它 清除 cpsr 中 的 工 位 来 使 能 ТКО 中 断 。 也 
就 是 说 ,一 旦 ADD 指令 进入 “执行 ”阶段 ,IRQ 中 断 就 被 使 能 了 。 














图 2.11 ARM 指令 顺序 





2 ARM 处 理 器 基础 


图 2. 12 显示 了 流水 线 及 程序 计数 器 pc 的 使 用 情况 。 在 指令 “执行 ?阶段 ,pc 总 是 指向 
该 指令 地 址 加 8 字 节 的 地 址 。 换 句 话说 ,pc 总 是 指向 当前 正在 执行 的 指令 的 地 址 再 加 2 条 
指令 的 地 址 。 当 用 pc 来 计算 一 个 相对 偏 移 量 时 ,这 一 点 是 很 重要 的 ,并 且 它 也 是 所 有 流水 
线 的 结构 特征 。 

注意 : 当 处 理 器 处 于 Thumb 模式 时 ,pc 的 值 为 正在 执行 指令 的 地 址 加 4, 


0x8000 LDR pe,[pc,40] 
0х8004 NOP 
0х8008 DCD jumpAddress | 


(0х8000+8) 





时 
间 











2.12 例子 : pc=address 十 8 


另外 ,还 有 3 个 值得 注意 的 流水 线 特征 ， 

第 1, 执 行 一 条 分 支 指令 或 直接 修改 pc 而 发 生 跳 转 时 ,会 使 ARM 内 核 清空 流水 线 ， 

第 2, ARMIO 使 用 分 支 预测 技术 ,通过 预测 可 能 的 分 支 并 在 指令 执行 前 装载 新 的 分 支 
地 址 ,从 而 减 小 了 清空 流水 线 的 影响 

第 3, 即 使 产生 了 一 个 中 断 ,一 条 处 于 “执行 ”阶段 的 指令 也 将 会 完成 。 流水 线 里 其 它 指 
令 将 会 被 放弃 ,而 处 理 器 将 从 向 量 表 的 适当 人 口 开始 填充 流水 线 。 


2.4 异常, 中断 及 向 量 表 
OT 


当 一 个 异常 或 中 断 发 生 时 ,处 理 器 会 把 pc 设置 为 一 个 特定 的 存储 器 地 址 。 这 一 地 址 放 
在 一 个 被 称 为 应 艇 玫 (vecror table) 的 特定 的 地 址 范围 内 。 向 量 表 的 人 口 是 一 些 跳 转 指令 ， 
跳 转 到 专门 处 理 某 个 异常 或 中 断 的 子 程序 。 

存储 器 映射 地 址 0x00000000 是 为 向 量 表 (一 组 32 位 字 ) 保 留 的 。 在 有 些 处 理 器 中 ,向 
量 表 可 以 选择 定位 在 存储 空间 的 更 高 地 址 (从 偏 移 量 0xffff0000 开始 )。 操 作 系 统 , 如 
Linux 和 Microsoft 的 嵌入 式 操作 系统 ,就 可 以 利用 这 一 特性 。 

当 一 个 异常 或 中 断 发 生 时 ,处 理 器 挂 起 正常 的 执行 转 而 从 向 量 表 ( 见 玫 2. 6) 装 载 指令 。 
每 一 个 向 量 表 入 口 包含 一 条 指向 一 个 特定 子 程序 的 跳 转 指令 ， 
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32.6 向 量 表 
AEP "m 5 地 x dd ЖД 
A 位 RESET 0x00000000 Ох обоо 
RELHA UNDEF 0x00000004 021010004 
软件 中 斯 SWI 0х00000008 Oxftffoo08 
ARP E PABT 0х0000000с 0хі#000е 
数据 中 止 DABT 0x00000010 OxfífíQ010 
RH — 0x00000014 Oxffffoo14 
中 断 请 求 IRQ 0x00000018 Oxffffo018 
Us Ei pbi FIQ 0х0000001с OxÜHf001c 


e FE RARBEESRIERSKISAER. AES E ЛЕНИН ЕШ 
始 化 代码 处 ， 

° 天 定义 阔 促 向 所 是 在 处 理 器 不 能 对 一 条 指令 译 玛 时 使 用 的 。 

e 坎 伯 六 肠 册 所 是 执行 SWI 指令 时 被 调用 的 。SWI 指令 经 常 被 用 作 调 用 一 个 操作 系 
统 例 程 的 机 制 。 

e НЕА ЕЕЗ АСЕАН ЕВ ВНТ, X 
际 上 中 止 发 生 在 * 译 码 ” 阶 段 ， | 

e ИРЕ STER ШЕ ЖШ. RUE TE ЖЕ ФИ ПН ЖЕЛЕП БИЙ 

”数据 存储 器 时 。 | 

e ЖУП 8 БОЙЛЕ КОМ РЕЛЕ IE ЕЙ. FUN срэг 中 的 
IRQ £i c BE РЕ, 

e кч ДЕЕ ЕЕ Ж, ES RISSO, 
只 有 当 cpsr 中 的 FIQ f BOR ERE A ERE. 


2.5 内 核 扩展 





本 节 包 含 的 硬件 扩展 是 置 于 ARM 内 核 外 国 的 标准 组 件 。 它 们 可 以 改善 性 能 ,管理 次 
滨 以 及 浊 供 额外 的 功能 ,为 处 理 特殊 的 应 用 提供 了 灵活 人 性。 每 个 ARM 系列 都 有 不 同 的 
ym. 

有 3 种 硬件 扩展 位 于 内 核 周 围 ，cache ЖЕРТ TCM Tightly Coupled Memo- 
ry) ,存储 管理 及 协 处 理 器 接口 。 


2 ARM 处 理 器 基础 





2.5.1 cache 和 紧 耦 合 存 储 器 


cache 是 位 于 主 存储 器 和 内 核 之 间 的 快速 存储 器 。 它 允许 从 某 些 存储 器 中 更 高 效 地 取 
指 。 有 了 cache, 处 理 器 内 核 就 能 够 在 大 多 数 时 间 全 速 运行 而 无 须 等 待 低速 的 外 部 存储 器 访 
问 。 大 多 数 基 于 ARM 的 嵌入 式 系统 使 用 处 理 器 内 部 的 一 级 cache, ttf iF КАЖ 
统 不 需要 cache 带 来 的 性 能 上 的 改善 。 

ARM 有 两 种 形式 的 cache。 第 一 种 形式 是 针对 冯 “， 诺 伊 最 结构 的 内 核 . 它 把 数据 和 
指令 放 在 一 个 统一 的 cache 里 ,如 图 2. 13 所 示 , 为 了 简单 起 见 ,我 们 把 存储 器 与 AMBA 的 
ЖЕШ ЛЮ У. 


SIDIUSUWJOPUNJ IJosseoold NHY Z 





片 内 AMBA 总 线 


29 


В 2.13 带 Cache 的 简化 冯 ， 诺 伊 曙 结构 


第 二 种 形式 是 针对 哈佛 结构 的 内 核 ,有 独立 的 指令 cache 和 数据 cache。 

cache 改善 了 系统 的 整体 性 能 ,但 也 使 程序 的 执行 时 间 变 得 不 可 预测 。 对 于 实时 系统 
来 说 ,代码 执行 的 确定 性 一 一 装载 和 存储 指令 或 数据 的 时 间 必须 是 可 预测 的 ,这 一 点 至 关 重 
E. EAKA RRA EMI TCM 的 存储 器 就 可 以 实现 ，TCM 是 一 种 快速 SRAM , 它 紧 挨 
内 核 ,并 且 保证 取 指 或 数据 操作 的 时 钟 周期 数 一 这 对 于 一 些 要 求 确定 行为 的 实时 算法 是 
很 重要 的 。TCM 位 于 存储 器 地 址 映射 中 ,可 作为 快速 存储 器 来 访问 。 一 个 带 TCM 的 处 理 
右 内 核 的 例子 如 图 2. 14 所 示 。 

把 上 述 两 项 技术 结合 ,ARM 处 理 器 既 能 够 改善 性 能 ,又 能 够 获得 可 预测 的 实时 响应 ， 
图 2. 15 显示 了 一 个 结合 了 cache 和 TCM 的 内 核 例子 ， 
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图 2.15 带 TCM 和 cache 的 简化 哈佛 结构 


2.5.2 存储 管理 


嵌入 式 系统 通常 使 用 多 个 存储 设备 ,因此 有 必要 实施 某 种 策略 来 组 织 管理 这 些 设备 ,并 
保护 系统 ,避免 一 些 应 用 非法 访问 硬件 。 可 以 使 用 存储 器 管理 硬件 来 实现 这 些 功能 。 


ARM 内 核 的 存储 器 管理 硬件 有 3 种 不 同类 型 一 一 没有 提供 扩展 ,没有 硬件 保护 (无 保 
90 ;提供 有 限 保护 的 存储 器 保护 单元 (MPU) ;提供 全 面 保护 的 存储 器 管理 单元 (MMU)，。 








e 无 保护 让 各 珍 是 固定 的 ,只 能 提供 非常 有 限 的 灵活 性 。 它 通常 用 于 小 的 .简单 的 赂 
人 式 系统 ,这 种 系统 由 于 其 应 用 特点 前 不 要 求 存储 器 保护 。 

e MPU 使 用 一 个 只 用 到 少量 存储 区 域 的 简单 系统 。 这 些 区 域 由 一 组 特殊 的 协 处 理 器 
寄存 器 控制 ,每 一 个 区 域 定义 了 专门 的 访问 权限 。 这 种 类 型 的 存 悄 器 管理 ,适用 于 
要 求 有 存储 器 保护 但 没有 复杂 存储 器 映射 的 系统 。 关 于 MPU 将 在 第 13 章 中 作 进 
一 步 介绍 。 

e MMU J: ARM 上 最 广泛 的 存储 器 管理 硬件 ，MMU 使 用 一 组 转化 表 , 以 提供 精细 
的 存储 器 控制 。 这 些 表 保存 在 主 存 里 ,并 且 提 供 虚 拟 地 址 与 物理 地 址 的 映射 和 访问 
权限 。MMU 适 异 于 支持 多 任务 的 复杂 操作 系统 平台 。 关 于 MMU 将 在 第 14 章 中 
作 进一步 介绍 。 


2.5.3 协 处 理 器 


协 处 理 器 可 以 附属 于 ARM 处 理 器 。 一 个 协 处 理 器 通过 扩展 指令 集 或 提供 配置 寄存 髓 
来 扩展 内 核 处 理 功能 。 一 个 或 多 个 协 处 理 器 可 以 通过 协 处 理 器 接口 与 ARM 内 核 相连 。 

协 处 理 器 可 以 通过 一 组 专门 的 ,提供 load-store 类 型 接口 的 ARM 指令 来 访问 。 例 如 
协 处 理 器 15CCP15) ,ARM ЯНИ 15 的 寄存 器 来 控制 cache, TCM 和 存储 器 
管理 。 | 

协 处 理喻 也 能 通过 提供 一 组 专门 的 新 指令 来 扩展 指令 集 。 例 如 ,有 一 组 专门 的 指令 可 
以 添加 到 标准 ARM 指令 集中 ,以 处 理 向 量 浮 点 (VFP) 运 算 ，。 

这 些 新 指令 是 在 ARM 流水 线 的 译 码 阶段 被 处 理 的 。 如 果 在 译 码 阶段 发 现 是 -条 协 处 
理 髓 指令 , 则 把 它 送 给 相应 的 协 处 理 回 。 如 果 该 协 处 理 器 不 存在 ,或 不 认识 这 条 指令 , 则 
ARM 认为 发 生 了 夫 息 义 斑 邻 暴 常 。 这 也 使 得 编程 者 可 以 用 软件 来 仿真 协 处 理 髓 的 行为 
(JA XF РА КАТАЛ). 


2.6 体系 结构 的 不 向 版 本 


每 个 ARM 处 理 办 都 有 一 个 特定 的 指令 集 架构 ISA, 而 一 个 ISA 版 本 又 可 以 有 过 种 处 
неи. 

ISA 哺 着 能 人 式 市 场 的 需求 而 发 展 。ARM 公司 精心 规划 该 发 展 过 程 ,使 得 在 较 早 的 
架构 版 本 上 编写 的 代码 也 可 以 在 后 继 版 本 上 执行 ， 

在 解释 ISA 的 发 展 过 程 前 ,我 们 先 来 介绍 ARM 处 理 器 的 命名 规则 。 命 名 规则 确定 了 
处 理 器 具有 的 相关 功能 特性 。 


2 ARM 处 理 器 基础 
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2.6.1 命名 规则 


ARM 使 用 如 图 2.16 所 示 的 命名 规则 来 描述 一 个 处 理 器 。 在 “ARM 后 的 字母 和 数字 
表明 了 一 个 处 理 器 的 功能 特性 。 随 着 更 多 特性 的 增加 ,将 来 字母 和 数字 的 组 合 可 能 会 改变 。 


ЖЖ: 命名 规 别 不 包含 体系 结构 的 版 本 信息 ， 


ARM (1) {y} {z} (T) (D) (MT (TH (ET JF) CS] 
x— 系列 

y— IHR Pb isi GL 
z—— Cache 

T 一 一 Thumb 165r REGES — 
D——ITAGIW Ж 
М-Ж 

I 一 一 AARRE T 
一 一 增强 指令 GETTDMD 
J—— Jazelle 

F 一 一 向 量 浮 点 单元 

9 一 一 可 综合 版 本 


әріге sJecdojeAeg uJeisAS ууу 





图 2.16 ARM 命名 规则 

关于 ARM 命名 规则 ,还 有 一 些 附 加 的 要 点 ， 

е ARM7TDMI 之 后 的 所 有 ARM 内 核 , 即 使 “ARM? 标 志 后 没有 包含 那些 字符 ,也 都 
包括 了 ТОМІ 的 功能 特性 。 

e 必 理 那 系 列 是 共享 相同 硬件 特性 的 一 组 处 理 丹 的 具体 实现 。 例 如, ARM7TDMI， 
ARM740T 和 ARM720T 都 共享 相同 的 系列 特性 ,都 属于 ARM? ЖЛ], 

e JTAG 是 由 IEEE1149. 1 标准 测试 访问 端口 (standard test access port) 和 边界 扫描 
结构 来 描述 的 。 它 是 ARM 用 来 发 送 和 接收 处 理 器 内 核 与 测试 仪 回 之 间 调 试 信息 
的 一 系 剂 协议 。 

e AA zt ICE ZË T (EmbeddedICE marerocel) 是 建立 在 处 理 器 内 部 .用 来 没 置 断 占 
和 观察 点 的 调试 硬件 。 

e 可 综合 的 , 意 昧 着 处 理 丹 内 核 是 以 源 代码 形式 提供 的 。 这 种 源 代 码 形 式 叉 可 以 被 纺 
译 成 一 种 易于 EDA 工具 使 用 的 形式 ， 
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2.6.2 体系 结构 的 发 展 


自从 第 一 个 ARM ЖР 1985 年 问世 以 来 ,ARM 体系 结构 一 直 在 发 展 。 表 2.7 列 
出 了 从 最 初 的 体系 结构 版 本 1 到 现在 的 版 本 6 的 那些 显著 的 增强 。ISA 的 最 明显 变化 之 一 
是 ,在 ARMyATCARM?7 TDMI 处 理 器 ) 中 引 人 了 Thumb 指令 集 。 


»*27 版 本 历史 

版 + йж ЖН BAWA 
ARMvi ARMI 第 一 个 ARM 处 再 器 

26 t FAE 
ARMv2 ARM2 32 ARER 

32 位 协 处 理 器 支持 
АВ Му2а ARM3 F E cache 

原子 交换 指令 

协 处 理 器 15 用 于 cache 管理 
ARMv3 ARM6 和 ARM7DI 32 位 寻 址 | 


独立 的 cpsr 和 spsr 
A Bc E X 182 ФЕЙ 
MMU Xx &— ibit fd 
ARMv3M — ARM7M ANS RULES K RA 
ARMv4 Strong ARM # W RK SE s t SE 8 ]oad-stote 指令 
ЖИ RERA 
为 体系 结构 上 定义 的 操作 而 保留 SW = f] 
不 再 支持 26 位 导 址 模式 
ARMv4T ARMTTDMI 和 ARMST Thumb 
ARMYSTE ARMSE 和 ARM10E ARMv4T ВЖ 
增加 ARM 5 Thumb 状态 之 间 切 换 的 额外 指令 
Bud 
额外 的 DSP 类 型 指 仿 
Toe RU 
ARMSTE] — ARMTE] 和 ARM926EJ Java fini 
ARMv6 ARM11 е ЕС ЕЕ 
ЖЕТЕ ЖИН URBC IO AERE 


Еа III 
MM MÀ 


表 2.8 总结 了 程序 状态 寄存 器 的 各 个 部 分 及 其 在 特定 指令 架构 上 对 应 功能 的 有 效 性 ， 
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> | “全 部 * 指 的 是 ARMv4 及 其 以 上 的 体系 结构 。 
之 X18 cpsr 的 描述 
š 
= 部 分 в ж # # ox 
3 BS 40 全 B ЮЕ S L 
T 5 ARMwv4T Thumb $A 
y I&F 76 2 部 th ВКК 
Ф I 24 — ARMvSTEJ Jazelle 状态 
8 Q 27 ARMSTE 条 件 标志 位 
Ф ү з 2 8 条 件 标志 位 
С) c љ 全 部 - S 条 件 标志 位 
с 7 30 全 部 条 件 标志 位 
Q N п £ 部 条 性 标志 位 


2.7 ARM 处 理 器 系列 


ARM 公司 设计 了 许多 处 理 器 ,它们 可 以 根据 使 用 内 核 的 不 同 划分 到 各 个 系列 中 。 系 列 划 
分 是 基于 АКМ7, ARMS, ARMIO 和 ARMIT 内 核 的 ， 后缀 数字 7?,9,10 和 11 表示 不 同 的 内 核 
设计 。 数 字 的 升序 说 明 性 能 各 复杂 度 的 提高 。ARMB8 开发 出 来 以 后 很 快 就 被 取代 了 

#E2.9 R у ARMT, ARMS, ARMIO 及 ARMII 内 核 之 间 一 个 粗略 的 属性 比较 ， 其 
所 列 的 一 些 数据 可 能 会 有 较 大 变化 ,这 依赖 于 生产 过 程 的 类 型 和 工艺 ,它们 对 工作 频率 
(MHz) 和 功 耗 (WD 也 会 产生 直接 影响 。 


2.9 ARM 系列 属性 的 比较 
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项 8 ARM? ARMS ARMIO ARMII 
AKERE 38 5g 5% 8 级 

典型 频率 /MHz 80 150 260 335 
mW/MHz * 0. 06 mW/MHz 0.18 mW/MHz 0,5 mW/MHz 0, 4 mW/MHz 

CE cache) С++ сасће) (cache) 

MIPS t /MHz 0.97 1.1 Lio 1.2 

gg № ng Wm 哈 5 哈 d 
mum 8x32 8x32 16x32 16x 32 


№. 9 一 一 在 相同 的 0,13 pm 工艺 上 上 的 W/MHz; 
b— MIPS 是 Dhrystone YAX MIPS, 








2 ARM 处 理 器 基础 


在 每 个 系列 中 ,存储 器 管理 ,cache 和 TCM 处 理 器 扩展 也 有 多 种 变化 。ARM 继续 在 可 
用 的 产品 系列 和 每 信 系 列 内 部 的 不 同 变种 本 方面 做 进一步 开发 。 

还 有 一 些 执行 ARM ISA 的 处 理 器 ,如 Strong ARM 和 XScale, 这 些 处 理 器 是 由 特定 的 
半导体 公司 独家 生产 的 ,如 上 述 处 理 器 的 广 商 Intel, 

# 2.10 总 结 了 各 种 处 理 器 的 不 同 功 能 特性 。 下 面 将 从 АКМ? 系列 开始 ,依次 就 ARM 
系列 作 进一步 的 说 明 ， 





$ 2.10 ARM 处 理 器 不 同 功 能 特性 


S[Djueuuppurn юѕѕәоом INYY c 





CPU ik MMU/MPU cache Jazelle Thumb ISA — E* 
. ARM?TDMI x X Ж Ж AT @ 

ARMTEJ-S x 无 是 是 ФТ Ж 

ARM720T MMU 统一 的 BK cache E 是 “Т @ 

ARM920T MMU Mr 16К/16К D+I cache = 是 WT E 

ARMS22T MMU 独立 的 8K/8K D+I cache F 是 WT F 

ARM9S26E-FS ММО 独立 一 一 cache 与 TCM 可 配置 E ÉE УТЕ 是 

ARM940T MPU 独立 的 4K/4K D+I cache 8 Ë “T ой 

ARM946E-S MPU 独立 一 一 cache 与 ТСМ 可 配置 = É ”v5TE 是 

ARMS66E-S X 独立 一 一 cache 5 ТСМ 可 配置 m E ТЕ Ж 

ARM1020E MMU 独立 的 32K/32K PI cache 香 E 5ТЕ 是 

ARM1022E MMU 独立 的 16K716K D4-I cache m 是 УТЕ 是 

АЕМ1026ЕЈ-5 ММУ A 3 —— cache 5 ТСМ 可 配置 是 Е IE 是 5 

АВМ1036]-5 ММО 独立 一 一 cache 与 ТСМ 可 配置 是 是 6 Ж 

ARMII38]F-5 ММО 独立 ~ 一 cache 5 ТСМ 可 配置 E 是 є Ж 


注 : а——Е 展 提 殿 了 增强 的 乘法 指令 和 愧 和 运算 指令 ， 


2.7.1 ARM? 系列 


ARM? 内 核 是 汉 。 诺 伊 昌 体系 结构 ,数据 和 指 今 使 用 同一 条 总 线 。 内 核 有 一 条 3 级 流 
水 线 , 执 行 ARMv4 指令 集 。 

ARM7TDMI Æ ARM 公司 于 1995 年 推出 的 新 秦 列 中 的 第 一 个 处 理 器 内 核 。 是 目前 
一 个 非常 流行 的 内 核 ,已 被 用 在 许多 32 位 捧 人 式 处 理 器 上 。 它 提供 了 非常 好 的 性 能 - 功 耗 
测 。ARM7TDMI 处 理 器 内 核 已 经 许可 纵 许 多 世界 顶级 半导体 公司 , 它 是 第 一 个 包括 
Thumb 指令 集 , 快 速 乘法 指令 和 嵌入 式 ICE 调试 技术 的 内 核 ， 

ARM? 系列 中 一 个 重要 的 变化 是 ARM7TDMIS, ARM7TDMIS 与 标准 








ARM ЛАКИ 


ARM7TDMI 有 相间 的 操作 特性 ,但 它 是 可 综合 的 ( 见 2.6. 1 小 节 )， 

ARM720T 是 АКМ? 系列 中 最 具 灵 活性 的 成 员 , 因 为 它 包含 了 一 个 MMU, MMU 的 
存在 意味 着 ARM720T 能 够 处 理 Linux 和 Microsoft А ЕДЯТ WinCE), ix—4h 
理 器 还 包括 了 一 个 8 КВ 的 统一 cache( 指 令 /数据 混合 cache), 向量 表 可 通过 设置 一 个 协 
人 处 理 器 15CCP15) 寄 存 器 来 重 定位 到 更 高 的 地 址 ， 

л“ Ж ARMTEJ-S 处 理 器 ,也 是 可 综合 的 。ARM7EJ-S 与 其 它 ARMT 处 理 器 
有 很 大 不 同 ,因为 它 有 一 条 5 级 流水 钱 ,并 且 执行 ARMSSTE] 指令 。 这 个 版 本 是 ARM 中 
惟一 一 个 提供 Java 加 速 和 增强 指令 ,而 没有 任何 存储 器 保护 的 处 理 器 。 





2.7.2 ARM9 系列 


әрп) suSdoJƏAƏdq LLIƏISAS WAY 


ARM9 系列 于 1997 年 问世 。 由 于 采用 了 5 级 指令 流水 线 , ARM9 Ж ШЖ ЕНЕ 
Ш ARM? 更 高 的 时 钟 频率 上 ,改善 了 处 理 器 的 整体 性 能 ;存储 器 系统 根据 哈佛 体系 结构 重 
新 设计 ,区 分 了 数据 D 和 指令 工 总 线 。 

АКМО 系列 的 第 一 个 处 理 器 是 ARM920T, 包含 独 立 的 D+ I cache 和 一 个 MMU。 这 
个 处 理 器 能 够 被 用 在 要 求 有 味 拟 存储 器 { 虚 存 ) 支 持 的 操作 系 统 上 。 ARM922T 是 
ARM920T 的 变种 ,只 有 一 半 大 小 的 DHI cache, 

ARM940T 包括 一 个 更 小 的 了 TI cache 和 一 个 MPU。 它 是 针对 不 要 求 运行 平台 操作 
系统 的 应 用 而 设计 的 ，ARM920T 和 ARM940T 都 执行 v4T 架构 指令 。 

ARM9 系列 的 下 一 个 处 理 器 是 基于 ARM9E-S 内 核 的 。 这 个 内 核 是 ARM9 内 核 带 有 
ЕТЮ - A RA UR. EA 2 个 变种 :ARM946E-S 和 ARM966E-S。 两 者 都 执行 
УТЕ 架构 指令 。 РИТА Л CBE ИЛ CETMO ,允许 开发 者 实时 跟 辽 处理 
器 上 指令 和 数 所 的 执行 。 当 调试 对 时 间 繁 感 {time-eritical) 的 程序 段 时 ,这 种 方法 非 党 
EX. 

ARM946E-S 包括 ТСМ, cache 和 一 个 MPU, ТСМ 和 cache 的 大 小 可 配置 ， 该 处 理 
髓 是 针对 要 求 有 确定 的 实时 响应 的 嵌 人 式 控 制 应 用 而 设计 的 。 而 ARM966F 有 可 配置 的 
TCM ,但 没有 MPU 和 cache 扩展 。 

ARM9 产品 线 的 最 新 内 核 是 ARM926EJ-S 可 综合 的 处 理 器 内 核 ,发 布 于 2000 4p, Ё 
是 针对 小 型 便 准 式 Java 设备 ,诸如 3G 手机 和 个 人 数字 助理 (PDA) 应 用 而 设计 的 。 
ARM926EJ-S 是 第 一 个 包含 Jazelle 技术 (可 加 速 Java 字 节 码 的 执行 ) 的 ARM 处 理 器 内 核 。 
它 还 有 一 个 MMU .可 配置 的 TCM 以 及 具有 零 或 非 零 等 竺 存储 天 的 DD 十 1 cache。 
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2.7.3 ARMIO0 系列 


ARMIO 发 布 于 1999 年 ,主要 是 针对 高 性 能 的 设计 。 它 把 ARM 的 流水 线 扩展 到 6 
级 ,也 支持 可 选 的 向 量 浮 点 单元 YFP, 对 ARM10 的 流水 线 加 入 了 第 7 В. УЕР 明显 增强 
了 浮 点 运算 的 性 能 ,并 与 IEEF754, 1985 浮 点 标准 兼容 。 

ARMIO20E 是 第 一 个 使 用 ARM10E 内 核 的 处 理 器 。 像 ARM9E 一 样 , 它 包括 了 增强 
HES, FEMER 32 KB D 二 Iceache、 可 选 向 量 浮 点 单元 VFP 以 及 MMU, 
ARM1020E 还 有 一 个 双 64 位 总 线 接口 ,以 改善 性 能 。 

ARM1026EJ-S 非常 类 似 于 ARM926EJT-S, 但 同时 具有 MPU 和 ММО, x — AE HER 
有 ARM10 的 性 能 和 ARM926EJ-S 的 灵活 性 ， 


S|DJLISLLIODLUID Dd !©55Ә2О Hi 0, 


2.7.4 ARMI11 系列 


ARM1136J-S 发 布 于 2003 年 ,是 针对 高 性 能 和 高 能 效应 用 而 设计 的 。ARM1136j-S 是 
第 一 个 执行 ARMv6 架构 指令 的 处 理 器 。 它 集成 了 一 条 具有 独立 的 ioad-store 和 算术 流水 
线 的 8 级 流水 线 " ARMv6 指令 包含 了 针对 媒体 处 理 的 单 指令 流 多 数据 流 (SIMD) 扩 展 ， 
采用 特殊 的 设计 ,以 改善 视频 处 理性 能 。 

ARM1136JF-S 就 是 为 了 进行 快速 浮 点 运算 ,而 在 ARM1136J-S 增 加 了 向 量 浮 点 单元 ， 
37 


2.7.5 专用 处 理 器 


StrongARM 最 初 是 ARM 公司 与 Digital Semiconductor 从 司 合作 开发 的 ,现在 由 Intel 
公司 单独 许可 。 在 要 求 低 功 耗 ,高 性 能 和 PDA 上 的 应 用 很 广泛 ， таен. АЮУ 
BS DI cache, StrongARM 是 第 一 个 包含 5 级 流水 线 的 高 性 能 ARM B ВЕЖУ 
Thumb 指令 集 ,” 

Intel 的 XScale 是 Strong ARM 的 后 续 产 品 ,在 性 能 上 有 显著 改善 。 在 本 书写 作 之 际 ， 
据 报道 XScale 可 运行 在 高 达 1 GHz 的 频率 上 。XScale 执行 v5TE 架构 指令 , 它 是 哈佛 结构 
的 ,类 似 于 StrongARM, 也 包 合 一 个 MMU, 

SC100 教 力 于 性 能 指标 的 另 一 方面 。 它 是 特别 针对 低 功 耗 的 安全 应 用 而 设计 的 。 
SC100 是 第 一 个 基于 ARM7TDMI 内 核 , 带 有 MPU 的 安全 内 核 。 它 不 仅 内 核 小 ,而 且 有 较 


4 TERM 15.4, ——— FERE EE 
** Intel 公司 已 宜 布 停产 StrongARM, 一 一 译 者 注 
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低 的 电压 和 电流 需求 ,对 于 智能 卡 应 用 颇具 吸引 力 。 


2.8 总 & 





在 本 章 中 ,我 们 把 注意 力 集中 在 实际 ARM ЖЕ ИЛЕ TERI К. ARM 处 理 器 可 抽象 
成 8 个 部 件 一 一 ALU ., 桶 形 称 位 器 ,MAC. 寄 存 器 文件 .指令 译 码 器 ,地 址 寄存 器 、 增 量 加 法 
器 和 符号 扩展 。 

ARM 有 3 个 指令 集 ,ARM,Thumb 和 Jazelle, ERLAR 37 个 寄存 器 ,但 是 在 
任意 时 刻 只 有 17 或 18 个 寄存 器 可 以 铁 访 问 ;其 余 的 根据 处 理 茯 模式 被 保护 ， 当 前 的 处 理 
器 模式 保存 在 cpsr 中 ,同时 它 还 保存 了 处 理 器 内 核 的 当前 状况 ,中 汤 屏 项 位 ,条件 标 志和 状 
态 , 该 状态 决定 了 哪个 指令 集 正 在 被 执行 。 

一 个 ARM 处 理 表册 一 个 内 核 及 周围 的 组 忻 并 通过 总 线 连 接 起 来 。 内 核 扩展 包括 ， 

€ cache 可 改善 系统 的 总 体 性 能 ; | 

e TCM 可 政 进 具 有 确定 性 的 实时 响应 ; 

e 产 备 营 理 用 于 组 织 存储 丹 和 保护 系统 资源 ; 

e 妙 你 理 故 用 于 扩展 指令 集 和 功能 , 协 处 理 器 15 控制 cache, TCM 和 存 情 器 管理 。 


一 个 ARM 处 理 器 是 一 个 特定 指令 集 架构 ISA 萄 具体 实现 。 自 从 第 一 个 ARM 处 理 器 
问世 以 来 ,ISA 就 一 直 在 不 断 改 进 \ 完 善 。 各 种 处 理 髓 根据 相似 的 特性 ,可 以 被 划分 在 各 个 
系列 (ARM7 ,ARM9,ARM10 和 ARM11) 中 ， 


e 数据 处 捏 指令 

e $i 

Ф load-store # 4 

e ү ЕН 

e # ADB 1348384 
@ 43% 

€ ARMs5E 扩展 

e 条 性 执行 

e £& я 








ARM RAS RANA 
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本 章 介 绍 的 指令 集 是 基础 知识 ,因为 这 些 内 容 在 本 书 的 其 它 部 分 部 会 用 到 。 所 以 ,在 深 
人 讨论 优化 和 高 效 算法 之 前 ,首先 需要 学 习 指令 集 。 本 音 将 介绍 最 普通 和 常用 的 ARM JE 
令 , 这 些 内 容 是 建立 在 前 一 章 所 涉及 的 ARM 处 理 跨 基础 知识 基础 上 的 。 第 4 童 将 介绍 
Thumb 措 令 集 , 附 录 A 给 出 了 所 有 的 ARM 指令 的 完整 描述 ， 

不 同 的 ARM 体系 结构 版 本 支持 的 指令 是 不 同 的 ,但 是 新 的 版 本 一 般 是 增加 指令 并 且 
保持 指令 的 向 后 兼容 .也 就 是 说 ,在 ARMUT 上 写 的 代码 在 ARMSTE 处 理 器 上 也 是 可 
以 运行 的 。 表 3, 1 列 出 了 所 有 ARME 指令 集 架 构 ISA 下 支持 的 指令 ,这 个 ISA 包括 了 
所 有 ARM 指令 ,以 及 在 ARM 指令 集中 一 些 新 的 功能 特征 。*ARM 1SA” 一 列 , 列 出 了 该 
指令 是 在 串 个 修 定 版 本 引 人 的 。 一 些 指令 在 后 续 的 架构 中 已 扩展 了 功能 ,例如 CDP 指令 在 
ARMv5 中 有 一 个 变 体 叫 CDP2。 间 样 ,有 些 指令 , 像 LDR. 也 有 ARM 的 护 展 ,但 不 需要 
新 的 或 扩展 的 助 记 符 。 


33.1 ARM 指令 集 

yira АКМ ВА 说 m 
ADC vl 带 进位 的 32 位 数 加 法 

ADD | vl 32 tr Sc da 

AND vi 32 (2 8 E S8 5 

E vl 在 32M 空间 内 的 相对 踊 转 指令 
BIC vi 32 fit ЖЕЕ 

BKPT v5 断 点 指令 

Bi. vl 带 链接 的 相对 网 转 指令 

BLX v5 BE 05138 SG 

BX “Т 切换 跳 转 

CDP CDP2 v2 vb ВАННИ НЕЕ 

CLZ v5 ЖИЙ 

CMN vl 比较 两 个 数 的 相反 数 

СМР vi 32 位 数 比 较 

EOR vl 32 fr E SERI 8 

LDC LDC2 v2 уб 从 协 处 理 器 取 一 个 或 多 个 32 (E 
LDM vl JA EXE Т 32 位 字 到 ARM ЖЕЕ 
LDR vb vé vàE 从 虚拟 地 址 到 一 个 单个 的 32 位 慎 
МЄК MCR2 MCRR v2v9voE АЖЕН ДЕНИН 
MLA v2 32 Ж RUD 


MOY #1 传送 一 个 32 位 数 到 寄存 器 
一 一 一 一- _ _ 


3 ARM 指 今 集 








续 表 3.1 eo 
"m ARMISA 4 m = 
MRC MRC2 MRRC vv5w6E MIA ray ГИТЕ 名 
MRS v3 把 状态 寄存 器 的 值 送 到 通 于 霖 存 器 5 
MSR Goo 。 招 通 用 寄存 器 的 值 传送 到 状态 害 存 器 5 
MUL v2 32 r 2 
MVN vl 把 一 个 32 fr ERES PER" EUER E| W fF a o 
ORR vl 32 位 逻辑 或 z 
PLD WE ИЕН > 
QADD V5E 有 符号 :oürt mi <= 
QDADD VSE 有 符号 双 52 {ИЖИ zy 
QSUB v5E 有 符号 32 D URL d 
QDSUB Е 00 GEH 22 MNAR 9 
RSB vl iE 32 EE Q 
RSC vl 带 进位 的 逆向 32 PORE 家 
SBC yd 带 进位 的 32 LE 一 
SMLAxy v5E 有 符号 乘 时 加 ((15 位 X15 位) 二 32 位 一 32 位》 
SMLAL v3M 64 {+ FER ЩПС(32 (rx 32 [0 4-64 (64 [D 
SMLALxy v5E 64 8 RESET COLS fx 16 RD 4-64 Fr 64 f) 
SMLAWy v5E ARERR fle f) >> 18 80-32 732 D a 
SMULL v3M 64 АРЫЯ ИСЗ 位 x32 位 ?一 54 位 ) 
SMULxy vE 有 符号 来 (16 位 X16 位 二 32 位 ) 
SMULWy v5E ЖЕ Ж (32 位 x16 >> 169 32 f) 
STC STC2 và v5 从 协 处 理 器 中 把 一 个 或 宪 个 32 位 值 存 到 内 存 
STM vl 把 多 个 32 位 的 寄存 器 值 存放 到 内 存 
5ТЕ vlvé v5E АРРА АРЕНЕ ВАЕ ТЫ 
SUB vi 32 rakik 
SWI vl 软 中 断 
SWP va 把 一 个 字 或 者 一 个 字 节 和 一 个 寄存 器 值 交 撞 
TEQ vl FEAH 
TST yl 位 测试 
UMLAL v3M 64 {ч ЖН ЗЕ ССЗ? (x 32 9-64 {й = 64 {4) 
UMULL v3M 64 位 无 符号 乘法 (32 (fox 32 i —64 位》 
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后 面 举例 介绍 指令 操作 时 ,使 用 PRE A POST 条 件 ; 分 别 表示 指令 执行 前 各 执行 后 的 
内 存 、 寄 存 器 情况 。 对 于 十 六 进 制 数 字 , 使 用 Ox 前 组 表示 ;二 进 制 使 用 Ob 前 经。 示例 格式 
ШЕ: 
PRE “执行 前 条 件 ) 
98%) 
POST 执行 后 情况 ) 


在 执行 前 \ 后 的 条 件 说 明 中 ,如 果 需 要 对 内 存 进行 说 明 , 则 使 用 的 格式 为 ; 


memtd data_size)[ address] 


ES YEM address 开始 的 data, size 存储 器 位 ,例如 mem32[1024] 表 示 从 地 址 1 KB 
开始 的 32 位 数据 值 。 

ARM 指令 只 对 存放 在 寄存 器 的 数据 进行 处 理 , 对 于 存储 器 数据 ,只 能 使 用 load 和 
store 指令 进行 存 取 。ARM 指令 通常 带 有 2 个 或 3 个 操作 数 ,例如 下 面 的 加 法 指令 ADD, 
把 存放 在 寄存 器 fl 和 r2 中 的 值 相 加 ,然后 把 结果 存 到 寄存 器 n3. 


指令 语法 目标 寄存 器 (Rd) SSES 1080) E i S Rm 
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ADD r3,11,r2 rà гі г? 


ARM 指令 可 以 划分 为 以 下 几 类 :数据 处 理 指令 、 分 支 指令 ,load-store 5 ЕТ 
指令 和 程序 状态 寄存 器 指令 。 后 续 章 市 将 分 类 介绍 ARM 指令 的 语法 和 功能 。 


3.1 数据 处 理 指令 
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数据 处 理 指 令 对 于 存放 在 寄存 器 中 的 数据 进行 操作 ,包括 MOVE( 传 送 ) 指 令 ,算术 指 

令 ,逻辑 指令 、 比 较 指 令 和 有 生 法 指令 。 大 多 数 数据 处 理 指 令 可 以 使 用 精 形 移 位 器 对 其 中 的 一 
个 操作 数 进行 预 处 理 。 

如 果 在 数据 处 理 指令 前 使 用 S 前 级 ,指令 的 执行 将 会 更 新 cpst 中 的 标志 。MOVE 指令 

种 逻辑 指令 会 对 进位 标志 C. fü CRUS N 及 零 标 志 Z 产生 影响 。 在 最 后 一 位 移出 时 , 桶 形 

移 位 的 结果 将 更 新 进位 标志 С.М 标志 根据 操作 结果 的 第 31 位 进行 设置 ;如 果 结 果 为 堆 , 屠 
么 Z 标 志 就 会 被 设置 。 


3.1.1 MOVE 指令 


MOVE 指令 是 最 简单 的 ARM 指令 ,执行 的 结果 就 是 把 一 个 数 N 送 到 目标 寄存 器 Rd, 
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其 中 NN 可 以 是 寄存 器 ,也 可 以 是 立即 数 。MOVE 指令 多 用 于 设置 初始 值 或 者 在 寄存 器 间 
传送 数据 。 
MOVE 指令 语法 ; 

<{#4:>{(сопф)}{5} Rd, N 


把 一 个 32 位 数 送 到 一 个 寄存 器 
把 一 个 32 ТЕ 


通常 N 是 一 个 寄存 器 Rm 或 者 是 一 个 使 用 # 前 组 的 常量 ,3. 1.2 小 节 中 的 表 3. 3 将 会 
对 第 2 个 操作 数 N 的 取 值 做 完整 的 描述 ， 

[Й 3.1】 MOVE 指令 ， 

例子 中 МОУ 指令 把 寄存 器 r5 的 内 容 复制 到 7 中 去 。 执 行 后 寄存 器 27 中 的 8 被 
5mm. 
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rbz5 
r!'-B8 
MOV r7 ,r5 1 r7= r5 
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3.1.2 桶 形 移 位 器 


在 例子 3.1 中 ,N 是 一 个 寄存 器 。 其 实 N 不 仅 可 以 表示 寄存 器 或 者 立即 数 , 也 可 以 是 
一 个 在 数据 处 理 指令 使 用 前 被 情形 移 位 器 预 处 理 过 的 寄存 器 Rm. 

数据 处 理 指令 是 在 算术 化 辑 单 元 ALU 中 完成 的 。ARM 处 理 器 一 个 显著 的 特征 就 是 ， 
可 以 在 操作 数 进 入 ALU 之 前 ,对 操作 数 进 行 指定 位 数 的 左 移 或 者 右 移 。 这 种 功能 明显 增 
强 了 许多 数据 处 理 操作 的 灵活 性 。 

有 些 数据 处 理 指令 并 没有 用 到 桶 形 移 位 器 ,例如 MUL,CLZ 和 QADD 指令 等 。 

预 处 理 或 移 位 发 生 在 该 指令 周期 内 。 这 对 于 把 一 个 常量 送 人 寄存 大 ,被 2 HERRE 
等 操作 是 特别 有 用 的 ， 

为 了 对 桶 形 移 位 器 进行 说 明 , 以 图 3. 1 为 例 ,在 MOVE 指令 中 增加 移 位 操作 。 寄 存 器 
Rn 在 进入 ALU 前 没有 进行 移 位 预 处 理 操作 ,Rm 使 用 桶 形 移 位 器 移 位 后 (产生 结果 N) 进 
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А ALU. 
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图 3.1 桶 形 移 位 器 和 ALU 


【 例 3. 2】 在 寄存 器 Rm 送 入 目标 寄存 器 之 前 ,首先 对 它 执 行 逻辑 左 移 (LSL) 。 这 就 像 
在 标准 C 中 对 寄存 器 使 用 移 位 操作 “ <<”. MOV 指令 把 桶 形 移 位 器 操作 的 结果 N 放 人 寄 
存 器 Rd,N 是 LSL 操作 的 结果 。 


PRE 
r5=5 
r7=8 


MOV r7, r5,LSL #2 ;let r72r5*4 =(r5 << 2) 
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POST 
r525 
г7 = 20 


这 个 例子 中 ,寄存 器 r5 ЖШ 4 后 把 结果 放 到 寄存 器 17. 
使 用 桶 形 移 位 器 可 执行 5 种 不 同 的 移 位 操作 ,如 表 3. 2 所 列 。 


R32 桶 形 移 位 器 操作 















逻辑 左 移 


x «« y #0-31 or Rs 











LSR 逻辑 右 移 (unsigned) x »» у # 1-32 or Rs 
ASR 算术 右 移 (signed)x »» y #1-32 or Rs 
ROR 循环 右 移 (Cunsigned) x >> y)|(x << (32—у)) #1-32 or Rs 
RRX 扩展 的 循环 右 移 (c flag << 31)|((unsigned)x >> 1) 


none 


注 ; x 表示 要 进行 移 位 操作 的 寄存 器 ,y 表示 要 移 位 的 位 数 。 
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图 3. 2 是 一 个 逻辑 左 移 一 位 的 操作 ,如 位 0 移入 位 1, 位 0 清除 ,C 标志 位 被 替换 为 移出 
寄存 器 的 那 一 位 。 当 у 表示 移 位 位 数 时 ,原来 数 的 位 (32 一 y) 将 被 移 人 C 标志 位 , 即 对 C 标 
志 进 行 替换 。 如 果 移 位 位 数 y 二 1, 那 么 执行 移 位 量 为 y 的 移 位 和 执行 y 次 移 位 量 为 1 的 移 





位 效果 相同 。 
d 
ОГОО; 
条 件 域 
=] [ A. 
条 件 域 





Ф 
3f 
Ë 


如 果 S 出 现 , 则 条 
aps d 
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图 3.2 逻辑 左 移 一 位 


【 例 3. 3】 一 条 MOVS 指令 ,把 寄存 器 rl 左 移 一 位 送 到 寄存 器 го, 
这 相当 于 把 rl 乘 以 2 。 因 为 指令 助 记 符 中 有 S 出 现 , 故 cpsr 的 C 标志 位 会 被 更 新 。 


PRE 45 
Cpsr = nzcvqiFt USER 
r0 = 0x00000000 


г1 = 0х80000004 
MOVS rO,rl,LSL #1 


POST 
cpsr = nvCvqiFt USER 
г0 = 0x00000008 
rl = 0x80000004 


表 3.3 列 出 了 在 数据 操作 处 理 指令 中 可 以 使 用 的 移 位 操作 的 语法 ， 第 2 个 操作 数 N 
可 以 是 立即 数 和 寄存 器 Rm, 也 可 以 是 使 用 桶 形 移 位 器 预 处 理 过 的 寄存 器 。 
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Жуз 数据 处 理 指令 的 桶 形 移 位 操作 语法 





N 语 法 
x Hs # immediate 
TEH Rm 
x ЩЩ Rm, LSL shift imm 
Ж ЖАЫ Rm, LSL Rs 
ЖОЛАЕВ Rm, LSR shift imm 
LE Ii E Rm, LSR Rs 
NRIS AES SE Rm, ASR #shifr_imm 
dad Ra ЕН Rm, ASR Rs 
ERRA Вт, ROR # shift imm 
寄存 器 循环 右 移 Rm, ROR Rs 
TEN ST E Rm, RRX 

3.1.3 算术 指令 

算术 指令 用 于 实现 32 位 有 符号 数 或 者 无 符号 数 的 加 法 和 减法 操作 。 
语法 为 ， 


(48 4 ((cond2) [S] Rd , Rn, N 


È: N 是 性 形 移 位 器 操作 的 结果 , 称 位 操作 的 语法 见 表 3.5, 
[513.4]. 使 用 减法 指令 把 存储 在 l 中 的 值 减 去 r2 中 的 值 ,然后 把 结果 存放 在 r0 q. 


















г) = 0x00000000 
rl = 0х00000002 
т2 = 0х00000001 





SUB rÜü,rl.r2 


POST 
rü = 0х00000001 


[53.5] 使 用 逆向 减法 指令 RSB 从 常数 0 CE rl. КАНОЕ IO 中 。 可 使 用 


这 种 方法 对 一 个 数 进行 取 反 操作 ，。 
PRE 


rū = 0х00000000 
rl = 0х00000077 


RSE г0,ті, #0 ;Rd = 0х0 ~ ri 


POST 
rÜ = -rl- OxffffffB5 


[5| 3.6] SUBS 指令 可 以 很 方便 地 实现 循环 计数 器 的 递减 操作 。 


本 例 使 用 SUBS 指令 从 寄存 器 zl 中 减 去 常量 1 ,然后 把 结果 写 回 到 rl, 


ЕЖ: cpsr t Z j C iti ks] s, 


PRE 
срзг = nzcwqiFt USER 
гі = 0х00000001 


SUBS г1,гі, #1 
РО5Т 


cpsr = nzÜvqiFt USER 
r1 = 0x00000000 


3.1.4 算术 指令 使 用 桶 形 移 位 器 


在 算术 指令 和 逻辑 指令 中 广泛 使 用 的 第 2 操作 数 的 移 位 功能 ,是 АЕМ 指令 集 的 一 个 非 
常 显著 的 特征 。 例 3. 7 是 一 个 算术 指令 使 用 内 个 桶 形 移 位 器 的 示例 ,指令 把 存储 在 ri 中 的 


值 乘 以 3。 


[53.7] 寄存 器 rl 首先 左 移 一 位 ,其 结果 等 于 1 值 的 2 倍 ;然后 加 法 操作 把 rl qmi 


形 移 位 器 的 结果 相 加 ;最 终 的 结果 放 在 寄存 器 r0 中 ,r0 等 于 3Xrl。 
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ERE 
rO = 0x00000000 
rl = 0к00000005 





ADD rū, rl, rl, LSL H1 
POST 


rÜ = 0х0000000Е 
rl = 0х00000005 


3.1.5 逻辑 指令 


opimo siedoleASq WAAS NUY 


逻辑 指令 可 对 2 个 源 操作 数 的 对 应 位 进行 逐 辑 操 作 。 
语法 为 ; 


(8 4 { (сопӣ) (S) Rd, Еп, N 


ок [sem [шых | 
кок mans : 
- 





СИ 3.8] FERRE, 
把 寄存 器 rl 和 r2 进行 “或 ”操作 ,然后 把 结果 放 到 го. 
PRE 

тй = 0х00000000 

ri = 0х02040608 

г2 = 0к10305070 
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ORR zü,r1,r2 


POST 
rQ = 012345678 


【 例 3. 9] 本 例 使 用 一 个 更 复杂 的 逻辑 指令 一 一 BIC 指令 , 它 可 以 把 一 个 逻辑 位 清 零 。 


FRE 
ri-übllll 
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r2 = 00101 
HIC rō, rl, r2 


POST 
rü = 051010 


上 面 代码 的 执行 等 价 于 :Re=Rn AND NOT(N) 


在 这 个 例子 中 ,寄存 器 r2 中 置 1 的 位 将 清除 rl 中 对 应 位 置 的 位 。BIC 指令 在 清除 状 
态 位 时 是 非常 有 用 的 ,也 经 常用 于 改变 cpsr 中 的 中 断 屏蔽 位 。 

只 有 当 旭 辑 指令 有 S 后 绎 时 ,指令 才 会 更 新 cpsr。 这 些 指 令 可 以 像 算 术 指 令 一 样 使 用 
桶 形 移 位 第 2 操作 数 ， 


3.1.6 比较 指令 


比较 指令 通常 用 于 把 一 个 寄存 器 与 一 个 32 位 的 值 进行 比较 或 测试 。 比 较 指 令 根据 结 
果 更 新 cpsr 的 标志 位 ,但 不 影响 其 它 的 寄存 骨 。 在 设置 标志 位 后 ,其 它 指令 可 通过 条 件 执 
行 来 改变 程序 的 执行 流程 ， 关 于 条 件 执行 的 更 多 信息 ,请 参看 3. 8 节 。 对 于 比较 指令 ,不 需 
要 使 用 S 后 缘 就 可 以 改变 标志 位 。 


指令 语法 ， 
(4 i(con?) Rn, N 


E: N 基 棚 形 移 位 器 的 操作 结果 , 称 位 器 操作 的 语法 见 表 3. 3。 


【 例 3.10} CMP 指令 ， 
指令 执行 前 ,r0 5 19 相等 ,z 标志 是 0, 用 小 写字 母 表示 。 执 行 后 ,z 标志 变 成 1, 用 大 写 
字母 表示 ,指示 出 比较 结果 相等 。 






срвг = nzevdlEt_ USER 
тб=4 
r8-4 
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СИР тй, r3 





POST 
epar = nZewqiFt [SER 
比较 指令 CMP 本 质 上 就 是 一 个 不 返回 运算 结果 的 减法 指令 ;同样 ,TST 指令 是 一 个 没 
有 保存 结果 的 逻辑 “与 ?操作 ;TEQ ШЕ ИШЕ. WT ART E ,不 需要 保存 
运算 结果 ,只 根据 结果 影响 cpsr。 


必须 记 住 : IA RK E cpsr 中 的 条 件 标志 ,不 影响 参与 比较 的 害 存 器 内 容 。 


3.1.7 乘法 指 今 


乘法 指令 把 一 对 寄存 器 的 内 容 相 科 , 然 后 根据 指令 类 型 把 结果 累加 到 其 它 的 寄存 器 。 
长 整 型 的 “入 累 加 ?要 使 用 代表 64 位 的 一 对 寄存 苍 ,最终 的 结果 放 在 一 个 自 标 寄 存 器 或 者 一 
对 寄存 器 中 。 


Rd NE. 


MLA (cond? 15} Rn, Rm, Rs, Rn 
MUL { (сопа) HS} Rd, Rm, Rs 


(484 (C(cond i 48) RdLo , Вані, Rm , Rs 


执行 一 个 乘法 指令 需要 的 周期 数 取 决 于 处 理 希 的 具体 实现 。 对 于 某 些 处 理 器 实现 , 需 
要 的 周期 数 还 依赖 于 Rs 的 值 。 关 于 周期 定时 的 更 多 细节 ,可 参考 附录 р, 


[33.113 一 个 简单 的 乘法 指令 ,把 寄存 器 rl 和 寄存 器 r2 AR LOG E AUR SUERTE 
$8 tO, ЖИ zl=2,r2 一 2 ,运算 结果 为 4, 放 在 寄存 器 10。 


PRE 
ro = 0х0000000й 
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rl = 0х00000002 
r2 = 0х00000002 


MUL rO,r1,r2 {т = r] x r2 
POST 

rÜ = Ox00000004 

rl = 0х00000002 

r2 = 0х00000002 


长 整 型 乘法 指令 (SMLAL,SMULL,UMLAL 和 UMULL) E 64 位 的 结果 。 由 于 结 
果 太 大 ,不 能 存放 在 一 个 32 位 的 寄存 器 ,所 以 把 结果 存放 在 2 个 32 位 的 寄存 器 RadLo 和 
RdHi 中 。RdLo 存放 低 32 位 ,RdHi 存放 高 32 位 。 例 3, 12 是 一 个 长 整 型 乘法 的 例子 ， 

СИ 3. 12] 把 寄存 器 2 和 r3 的 结果 相 乘 ,然后 把 结果 放 在 O 和 rl h, то 存放 低 32 
位 ,rl 存放 高 32 位 ， 


PRE 
rO = 0x00000000 


495 uOLonuisu| WAY eu O; поцопродц £ 


ri = 0к00000000 
r2 = 0к#0000002 
гЗ = 0х000090002 


51 
UMULL rü,rl,r2,r3 si[rl,rü] = r2 r3 
POST 
rÜ = 0хе0000004 ,RdLo 
ri = 0xo0000601 ; RdHi 


3.2 分 支 指令 





分 支 指令 可 改变 程序 的 执行 流程 或 者 调用 子 程序 ， 这 种 指令 使 得 一 个 程序 可 以 使 用 了 
程序 ,if- then -else 结构 以 及 循环 。 执 行 流程 的 改变 迫使 程序 计数 器 pe 指向 一 个 新 的 地 
址 ,ARMv5E 架构 指令 集 包 括 以 下 4 种 不 同 的 分 支 指令 ， 


Wik; 
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В{ (сопа) } label 

ВІ. сола? } label 

ВХ! (сопа)! Кт 
BLXí(cond)) label | Rm 


pe= label 
|г= BL 后 面 的 第 一 条 指令 地 址 


pe Rm ® Oxfiffffe, T- Rm 51 


жаннан | TO 
BLX 状态 pe 一 Rm & ох е, T= Rmë-1 
fr 一 BLX 后 面 的 第 一 条 指令 地 址 


地 址 label 以 一 个 有 符号 的 相对 于 pc 的 侦 称 量 保存 在 指令 中 ,必须 贸 限制 在 分 支 指令 
的 约 32 MB WEA. ТУУТ cpsr 中 的 Thumb 位 ,如 果 指 令 设置 了 本 ,那么 ARM 切换 到 
Thumb 状态 ， 


[53.13]. ERAR R AA a ВЕЗЕ. 
由 于 跳 转 是 由 地 址 确定 的 ,这 里 不 再 给 出 执行 前 后 的 状态 。 这 个 前 向 跳 转 跳 过 了 3 条 
指令 ;后 向 跳 转 建立 了 一 个 无 限 循环 。 


В forward 

ADD rl,r2,#4 
ADD 10,16, #2 
ADD 13,17, #4 





SUB rl,r2,i[4 


ADD т1,т2, 4 
SUS rl,r2,3# 4 
ADD rá4,r6,r7 
B backward 


分 支 指令 用 于 改变 程序 的 执行 流程 ,大 多 数 汇编 语 衣 通过 使 用 地 址 标 导 来 隐藏 分 支 指 
令 编 码 的 细节 。 在 例 3. 13 中 ,forward 和 backward 就 是 地 址 标号 。 地 址 标号 放 在 一 行 的 
开始 处 ,汇编 内 会 记录 该 行 指令 的 地 址 ,用 于 计算 跳 转 的 偏 移 量 。 
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[53.14] ТЕЕ, 

带 链 接 的 跳 转 指令 和 B 指令 相似 ,不 过 BL 指令 还 要 把 一 个 返回 地 址 写 到 链接 寄存 器 
lr, BL 可 用 于 子 程序 调用 。 下面 的 例子 是 一 个 代码 片断 ,使 用 BL 指令 跳 转 到 一 个 子 程序 ， 
再 通过 拷贝 链接 寄存 器 1+ 到 pe 来 返回 。 


BL subroutine ЕЕ EE 

СМР г1,й5 ;把 rl 和 和 5 作 比 较 

MOVEQ rl, 0 ;if(r1==5) then г1= 0 
subroutine 

(TERRE) 

MOV pc, lr i 返回 


分 支 切换 指令 BX 和 带 链接 的 分 支 切换 指令 BLX 是 第 3 种 类 型 的 分 支 指令 。BX 指令 
使 用 一 个 存 情 在 寄存 器 Rm 中 的 绝对 地 址 ,主要 用 于 跳 转 到 Thumb 代码 或 从 Thumb 状态 
返回 ,在 第 4 章 中 将 有 描述 。cpsr 中 的 工 位 由 分 支 寄存 器 的 最 低位 来 更 新 。 同 样 ,BLX 指 
令 也 是 用 分 支 寄存 器 的 最 低位 来 更 新 cpsr 中 的 了 位 ,并 要 把 返回 地 址 写 人 链接 寄存 器 r, 
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3.3 load-store 指 今 


load-store 指令 用 于 在 存储 器 和 处 理 器 寄存 器 之 间 传输 数据 。 共 有 3 种 类 型 的 load- 53 


store 指令 , 单 寄 存 器 传输 指令 ,多寡 存 髓 传输 指令 和 交换 指令 。 


3.3.1 单 寄存 器 传送 指令 


这 种 指令 用 于 把 单一 的 数据 传人 或 者 传 出 一 个 寄存 器 。 支 持 的 数据 类 型 有 字 (32 位 )、 
半 字 {16 位 ?和 字 节 。 下 面 是 不 同 的 单 寄存 器 传送 指令 的 格式 。 
语法 : 
(LDR|STR} {cond)} {B} Rd, addressingl 


LDR{ сопа) ; SB| HISH Rd, addressing2 
STR((cond?) H Rd, addressing? 





epino sjedojoA^e( WAS гу 


94 





ARM 由 入 式 系统 开发 













Rd<—mem32[ address | 





把 一 个 字 装 和 人 一 个 寄存 器 
从 一 个 寄存 器 保存 一 个 字 或 者 一 字 节 
LDRB 把 .一 字 节 装 人 一 个 寄存 器 
从 一 个 寄存 器 保存 一 字 
把 一 个 半 字 装 人 寄存 名 

从 一 个 寄存 器 保存 一 个 半 字 Rd- memi S[ address] 


3.3.2 小 节 中 的 表 3. 5 和 表 3.7 MEA addressing! P addressing? 进行 说 明 。 


【 例 3. 151 LDR fü STR 指令 可 以 装载 和 存储 边界 对 齐 的 数据 。 

所 亩 边界 对 齐 ,就 是 数据 边界 地 址 与 该 数据 类 型 的 大 小 是 一 致 的 。 例 如 ,LDR 只 能 从 
地 址 为 4 字 节 整数 倍 的 存储 器 地 址 装载 32 位 的 字 0,4 和 8 等 地 址 。 这 个 例子 中 从 一 个 以 
SEES r1 内 容 为 地 址 的 存储 器 中 装载 数据 ,然后 再 写 加 到 原来 的 地 址 。 








Rd-*mem3?2[addresa | 












Rd*-mem8[ address] 












Бател address] 












Rd«—meml6[ address J 






















+ ERAH го 


E 

ШЕ тй, [х1] =108 гб, [r1, #0] 
' 
+ НИЖЕ 

STR r0, [r1] ;"STRrTO, [т1, 0] 


第 一 条 指令 从 存放 在 zl 中 的 存储 器 地 址 处 读 取 一 个 字 , 然 后 存放 到 0 中 ;第 二 条 指令 
把 x0 的 什 写 人 寄存 器 zl 所 指向 的 地 址 中 。 从 寄存 器 rl 的 偏 移 重 为 0, 寄存 器 rl ЖЮ 


ВШ. 


3.3.2 单 寄存 器 load-store 指令 的 寻 址 方式 


АЕМ 指令 集 提 供 了 几 种 存储 器 寻 址 的 不 同方 式 ,这 些 方式 是 以 下 儿 种 变 址 模 起 的 组 
合 , 画 写 前 变 址 (preindex with writeback) .前 变 址 (preindex) 及 后 变 址 (postindexy , 
R 3.4 列 出 了 几 种 变 址 模式 。 
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383.4 FERR 








mem[base + offset] | 基 址 寄存 器 加 上 篇 郑 LDR rô [rl], # 4]! 
meml base -+ offset] AGE LDR rz0,[rl, #4] 
тет base j A hp Е LDR r0,[r1]. #4 


PEE BERE ht: 
”前 变 扯 
后 变 址 






E: 示例 部 分 使 用 的 “性 表示 要 把 计算 出 的 地 址 回 写 到 基 赴 寄存 器. 


СЯ 3.16] 回 写 型 前 变 址 和 前 变 址 的 区 别 是 ; 回 写 型 前 变 址 存 计算 出 新 的 地 址 后 要 用 
新 的 地 址 更 新 基 扯 寄存 此 的 内 容 , 然 后 再 利用 新 的 基 址 寄存 器 进行 寻 址 ;而 前 变 址 方式 虽然 
也 利用 对 基 址 寄存 器 的 改变 值 进 行 寻 址 ,但 基 址 寄存 器 在 操作 之 后 仍然 保持 原 值 。 后 变 址 
和 辣 写 型 前 变 址 类 似 ,也 要 更 新 基 址 寄存 器 的 内 容 ,但 后 变 址 方式 先 利用 基 址 寄存 大 的 原 值 
进行 寻 址 操作 ,然后 再 更 新 基 扯 寄存 器 。 这 两 种 方式 在 遍 夯 数组 时 是 很 有 用 的 。 


PRE 
rÜ = 0х00000000 
r1 = 0х00090000 
men32[0x00009000] = 0x01010101 
men32[ 0x00009004 ] = 0х02020202 


1ƏS uoBorutsu IA: g eur oj иоцопроцщ € 


LDR YO, [ri, #4]! 
回 写 型 前 变 址 寻 址 ， 


POST(1) 
rÜ = 0x02020202 
rl = 0х00009004 
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LDR r0 , [r1; #4) 


前 变 址 寻 址 : 


POST(2) 
rÜ = 0x02020202 
r1 = Qx00009000 


LOR го, [r1] # 4 


АЯР: 


POST(3) 


ARM ЛАКИН 












2 rO = 001010101 
之 г1 = 0x00009004 
cn 
а Ë) 3. 16 说 明了 在 相间 的 前 置 条 件 下 ,不 同 的 变 扯 方式 是 如 何 影 响 寄 存 器 rl 中 的 地 址 和 装 
3 RSS го 的 数据 结果 的 。 
о 对 于 一 条 特定 的 load-store 指令 ,其 寻 址 模式 依赖 于 其 所 属 的 指令 类 。 表 3.5 中 列 出 
© 了 32 YE (word) fl k FE 5 (ansigned byte load-store { 4 Br xz е НҢ. 
Š RIS ШИНЕМ ЕНЕВ word 或 onsigned byte] 
Š 3A ib 3 K, Y(Addressing1) Addressing 语法 
9x 
q) ERARE EE ЗА [Rn, #+/— olfser 12] 
Ë Ваа аа [Rn, 十 /一 Rm] 
{йж ЛЕЛЕ FHE [Rn,# + / —- offset 1271 
TERRE TELS EE E RE [Rn, -/ Еј! 
Ей: t 8 8 B| E ЖЕЕ, [Rn,+/—Rmsshift # shift imm! 
иШ E b SEE [Rn], 4- / — offset, 12 
LES Jp [Rn], t /—Rm 
出 例 寄存 器 后 变 址 寻 址 [Ra], +/—Rmshift # shif imm 








有 符号 的 偏 移 量 或 寄存 器 用 "十 /一 ”表示 ,表示 相对 一 个 基 址 寄存 器 Ra 的 正 偏 移 量 或 
负 偏 移 量 。 基 址 寄存 器 是 一 个 指向 字 节 的 指针 , 偏 移 量 表示 偏 移 的 字 节 数 ， 

寻 址 方式 中 的 立 秃 孝 说明 地 址 是 通过 基 址 寄存 器 和 一 个 编码 在 指令 中 的 12 位 偏 移 量 
计算 而 得 :海产 天 说 明 地 址 是 通过 基 址 寡 存 器 和 另 一 个 特定 的 害 存 器 中 的 内 容 计算 而 得 ;此 
AFTA (scaled register) 是 指使 用 基 址 寄存 器 和 一 个 桶 形 移 位 器 来 计算 地 址 ,* 

表 3.6 提供 了 LDR 指令 的 不 同 变 体 的 操作 示例 。 表 3.7 列 出 了 16 位 半 字 或 有 符号 字 
TIS load 和 store 指令 可 以 使 用 的 合十 方式 。 
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33.6 使 用 不 同 导 址 方式 的 LDR 指令 示例 







LDR tü, [ri r # 0х04]1 
LDR rů DL [rl ‚т2] r 
LDR rü Lr] 4T Й LSE # 0x04] ! 







mem32[ r1 + 0x04] 
mem32i t] -- r2] 
mem32[ rl 4-12 LSR 0x04?] 






0x04 
r2 
(r2 LSR 0х4) 


BIS EE ФА 





ОТЕЛИНИН IERI ТАЕ ЕЁ? SN. —HRIE 











3 ARM Е 
ЖЖ 36 









LDR т0,[т1,#0х4] mem32[r] J-0x47 
























前 变 址 寻 址 LDR r0,; r1,r2J mem32; r1 + r21 AGE 
LDR rü,[r1, — i2,LSR #0x4] | mem32[r1— (r2 LSR it 0x04) ^ oU 
LDR ro.[ri], $0x4 mem32[ r1] 0х4 

后 变 址 寻 址 LDR r0,[ri]. r? mem32[11] г? 


LDR ro.[r1], rZ, LSR #04 mem32[ 11] (r£ LSR Qx4) 





93.7 ЖИИ load-store ею e GOES \ 有 符号 半 字 ,有 符号 字 节 友 双 字 ] 


Addressing2 5 X 4e Ж 2t 3 ik 











Addressing? 语法 








|. 48$ ucolomulsul NRY Sul OJ чоцопроци e 


PALACE ES E kt [Rn, & + /—ofíset 87 

3E EC E RE EAE [Rn,-- /—Rm] 

кА S E| E E Eh [Rn, £ 4 / -- offset 811 
ЖЕШНЕН И ЕИ ЛЕНЕ ht [Rn £ /— Rm]! 

у ШЕ ЛЕДЕ 3 l: [Rn], & -- /—ofíset 8 

XEM ERE SEAL [Rn], /—Rm 






这 些 操作 不 能 使 用 桶 形 移 位 器 。 其 没有 STRSB 或 者 STRSH 指令 ,因为 STRH 可 以 
存 情 一 个 有 符号 或 者 无 符号 的 半 字 ; 同样 , STRB 可 以 存储 有 符号 或 者 无 符号 的 字 节 。 
表 3.8 列 出 了 STRH 指令 的 各 种 变 体 ， 
383.8 STRH 指令 的 不 同 变 体 
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STRH r0,[ rl, #0х4]! 
STRH rir , 12] l 


mem16[r] +-0x4]= r0 


回 写 前 变 址 寻 址 
meml6[ r1--r2]- 10 






STRH :0,[г1, # 0x4] 
STRH :0.[:1,г2] 


meml&[ r1 0x4] rů 
meml8[ ri --r2]— тй 












前 变 址 寻 址 














5ТЕН r0,.[r1], # 0x4 
STRH т0,[т1],г2 


mem15[r1]=r0 


j E tk sat meml16[r1]= r0 








3.3.3 多 寄存 器 传送 指令 


多 次 装载 -存储 的 load-store 指令 可 以 用 一 条 指令 传送 多 个 寄存 器 的 值 到 内 存 , 或 者 从 








ARM 嵌入 式 系 统 开发 


内 存 取 数据 到 多 个 寄存 器 。 传 输 是 从 一 个 指向 存储 器 的 基地 址 寄存 器 Rn 开始 的 。 多 害 存 
器 传送 指令 在 数据 块 操作 .上 下 文 鳄 换 .堆栈 操作 等 方面 , 比 单 寄 存 器 传送 指令 会 有 更 高 的 
执行 效率 。 

多 寄存 器 的 load-store 指令 会 增加 中 断 的 延迟 ,因为 ARM 通常 不 会 打 断 正在 执行 的 
指令 去 响应 中 断 ,而 必须 等 到 指令 执行 完 。 例如 在 АКМ? 中 ,一 个 多 寄存 器 的 load 指令 如 
果 要 装载 N 个 寄存 器 ,那么 指令 执行 需要 2 十 Nt 个 周期 ,其 中 + 是 一 次 顺序 访 向 存 情 器 所 
需 的 周期 数 。 如 果 一 个 中 断 在 多 寄存 器 load-store 指令 执行 期 间 产生 ,那么 处 理 器 在 多 害 
存 器 load-store 指令 执行 完 后 才 对 中 断 响应 。 

编译 器 ,比如 armec, 提 供 了 一 个 开关 来 控制 一 名 load-store 指令 可 以 传送 的 最 大 寄存 
器 数目 ,以 限制 最 大 的 中 断 延 迟 。 


语法 ， 








opino sjedojoe^ec] WEAS WAY 


(LDM|STM? i (сопа) GT ЖЖ XO Rn 1) Registers} tr) 


Е Ус. (Rd) + < — mem32[ start address + 4 « N] optional Rn updated 
保存 过 个 寄存 器 (Rd) * — >> memà2[ start address + 4 « N] optional Rn updated 


. 33.9 PIT £ ETERS ioad-store 指令 的 不 同 寻 址 模式 ,其 中 N 是 操作 寄存 器 的 个 数 ， 
539 多 寄存 器 传送 load-store 指令 的 寻 址 模式 


58 














执行 后 增加 Вп+4 + N—4 
执行 前 增加 | Rn 二 4 Rn 十 4# N 
执行 后 减少 | Ra—4 Rn 十 4 Ra 
执行 前 减少 | Rn—4«N Rn 一 4 












任何 当前 寄存 器 组 的 子 集 都 可 以 使 用 多 寄存 器 load-store НУУН tr B E 
换 。 基 址 寄存 器 Rn 决定 目标 或 者 源 地 址 ,可 以 通过 选择 使 用 Rn JE UE EU II XE Ва 
的 值 是 否 随 着 传送 而 改变 ,就 像 使 用 回 写 前 变 址 寻 址 的 单 寄 存 咒 传送 指令 一 样 。 


【 例 3. 17 了 寄存 办 то 作为 基地 址 寄存 器 Rn, 并 且 使 用 了 “1!” 后 缀 ,表示 在 指令 执行 后 
寄存 器 将 被 更 新 。 


注意 : 在 多 寄存 器 传送 指令 中 ,这 此 寄存 器 并 没有 被 单独 列 出 来 ,而 是 使 用 了 “-" 来 表示 一 个 害 存 器 


范围 。 直 本 例 中 ,这 个 范 园 是 TI。 如 果 列 出 每 一 个 等 存 器 ,出 要 用 过 革 分 陋 , 并 使 用 *{ }” 把 它们 括 
起 来。 
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PRE 
mem32[0x80018] = 0x03 = 
mem32[0x80014] = 0х02 2 
mem32[ 0x80010] = 0x01 S 
r0 = 0x00080010 = 
r1 = 0x00000000 5 
г2 = 0х00000000 a 
r3 = 0x00000000 = 

Ф 

LDMIA = r0!, {r1 - r3} > 

5 

POST 

E 

r0 = 0x0008001c e 

rl = 0x00000001 n 

r2 = 0x00000002 9 

r3 = 0x00000003 $ 

+ 


图 3.3 是 一 个 图 形 化 的 表示 。 在 执行 前 , 基 址 寄存 器 то 指向 存储 器 地 址 0x80010。 
存储 器 地 址 0x80010 ,0x80014 及 0х40018 保存 的 内 容 分 别 为 1,2,3。load 指令 执行 后 ,rl， 
r2 K r3 的 值 发 生 改变 ;最 后 , 基 址 寄存 器 r0 指向 了 存储 器 地 址 0x8001c, 如 图 3.4 所 示 。 
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图 3.3 指令 执行 的 前 置 条 件 
如 果 例 子 中 的 LDMIA 指令 用 LDMIB 取代 ,并 且 是 执行 前 的 状态 ,那么 执行 后 的 状态 如 图 
3.4 所 示 。 
在 相同 的 前 置 条 件 下 ,如 果 把 上 述 LDMIA 指令 换 成 前 增 量 的 LDMIB 指令 ,那么 寄存 
à r0 所 指向 的 第 一 个 字 将 被 忽略 ,寄存 器 1 将 从 下 一 个 地 址 装载 数据 ,如 图 3.5 所 示 。 执 
行 后 ,寄存 器 r0 指向 最 后 一 个 被 装载 的 字 
递减 类 的 多 寄存 器 传送 指令 (DA 和 DB) 是 从 起 始 地 址 递减 的 ,这 对 于 存储 器 地 址 与 寄 








ARM 嵌入 式 系 统 开 发 





地 址 指针 存储 地 址 数据 








epino sJedoje^eq UuelsAS WUY 








H3.5 LDMIB 指令 执行 后 的 情况 
存 器 编号 移动 方向 相反 的 传送 是 很 有 效 的。 可 以 使 用 递增 和 递减 的 多 寄存 器 传送 来 正 向 或 
反 向 访问 数组 ,或 用 于 堆栈 的 压 人 和 退出 操作 。 本 节 稍 后 的 部 分 将 会 对 此 举例 说 明 。 

表 3. 10 列 出 了 更 新 基地 址 的 load-store 指令 对 。 如 果 使 用 了 表 中 的 一 条 store 指令 ， 
那么 与 之 配对 的 load 指令 (相同 寄存 器 数目 ) 将 重新 装载 数据 并 恢复 基地 址 指针 。 这 对 于 
需要 临时 保存 一 组 寄存 器 ,然后 再 恢复 它们 的 场合 ,是 很 有 用 的 。 

表 3.10 更 新 基地 址 的 load-store 指令 对 
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多 寄存 器 store 指令 多 寄存 器 load 指令 





【 例 3.18】 显示 STMIB 5 LDMDA 的 组 合 使 用 。 


STMIB 指令 把 值 7,8,9 存 人 存储 器 ,然后 rl—r3 被 改写 ,最 后 使 用 LDMDA 恢复 了 
г1,12 及 r3 的 原始 值 , 并 恢复 了 基地 址 指针 го, 








г0 = 0х00009000 
ri = 0х00000009 
г2 = 0х00000008 
r3 = 0х00000007 


STMIB к0!, {rl - r3: 


MOV rl, #1 ИШЕ г1-—т3 
MOV r2, #2 
MOV r3, {З 


PRE(2) 
r) = 0x0000900c 
ri = 0х00000001 
т2 = 0к00000002 
r3 = 0х00000003 


LDMDÀ r0! ,iri- r3j 


POST 
rü = 0х00009000 
ті = 000000009 
r2 = 000000006 
r3 = 00000000? 


СЕ 3.19】 使 用 多 寄存 器 传送 指令 来 完成 一 个 存储 器 数据 块 拷贝 
下 面 的 代码 从 狐 地 址 拷贝 32 字 节 到 目标 地 址 ， 


£ 
* 


з r8 ЛС ШИН 
; zl10 存 放 目 标 起 始 地 址 
i TERCER ER НЕН 


loop 
ЫНТА x9!, {10-17} 1 装载 32 FHEA r9 指针 
STMIA 101, {00-17} О 32 字 节 并 更新 r10 指针 
CP r9, ги аркана? 
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BNE loop ;不 相等 跳 转 


这 个 程序 假设 代码 执行 前 已 设置 好 了 寄存 器 rg,rl0 RI rll, 寄存 器 r9 和 rll 决定 了 
拷贝 数据 的 范围 ,r10 为 数据 存储 的 目标 地 址 。LDMIA 指令 装载 由 r9 指向 的 数据 到 寄存 
器 r0 一 r7, 同 时 更 新 r9 指向 下 一 个 要 拷贝 的 数据 块 。STMIA 指令 拷贝 寄存 器 r0 一 r7 的 内 
容 到 由 r10 指向 的 目标 存储 器 ,同时 也 更 新 r10 指向 下 一 个 目标 数据 块 。CMP 和 BNE fü 
令 比 较 指针 r9 和 rll ,检查 是 否 已 到 达 结束 地 址 。 如 果 块 拷贝 已 完成 , 则 程序 结束 ;否则 特 
环 将 以 更 新 过 的 r9 和 rlo 继续 。BNE 是 附 条 件 标志 NE( 不 相等 ) 的 分 支 指令 。 

图 3.6 是 对 上 述 存储 器 块 拷贝 的 示意 图 。 理 论 上 讲 , 这 个 循环 使 用 2 条 指令 就 可 以 传 
x 32 字 节 ,所 以 在 33 MHz 的 时 钟 下 ,可 以 获得 64 MB/s 的 吞吐 量 。 以 上 数据 是 在 使 用 快 
速 内 存 的 理想 存储 系统 中 得 到 的 。 
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图 3.6 存储 器 块 拷贝 示意 图 


ARM 体系 结构 使 用 多 寄存 器 的 load-store 指令 来 完成 堆栈 操作 。pop 操作 (出 栈 ) 使 
用 一 条 多 寄存 器 的 load 指令 ,push 操作 (入 栈 ) 使 用 一 条 多 寄存 器 的 store 指令 。 

在 使 用 一 个 堆栈 的 时 候 ,需要 确定 堆栈 在 存储 器 空间 中 是 向 上 生长 还 是 向 下 生长 的 。 
一 个 堆栈 或 者 是 递增 的 (ascending,“A”) 一 一 向 上 (高 地 址 空间 ) 生 长 ,或 者 是 递减 的 (de- 
向 下 (低地 址 空间 ) 生 长 。 

满 堆栈 (full stack,“F”) 是 指 堆栈 指针 sp 指向 堆栈 的 最 后 一 个 已 使 用 的 地 址 或 满 位 置 
(也 就 是 sp 指向 堆栈 的 最 后 一 个 数据 项 位 置 ); 相 反 , 空 堆栈 (empty stack,“E”) 是 指 sp 39 
向 堆栈 的 第 一 个 没有 使 用 的 地 址 或 空位 置 (也 就 是 sp 指向 堆栈 的 最 后 一 个 数据 项 的 下 一 个 
үй). 

有 一 些 多 寄存 器 load-store 指令 的 别名 支持 堆栈 操作 ( 见 表 3.11), Ж pop 的 右边 下 一 
列 , 是 与 之 实际 等 价 的 load 指令 。 例 如 ,一 个 递增 式 满 堆栈 将 由 符号 FA 附加 在 load 指 
令 一 一 LDMFA, 这 可 以 转换 成 一 条 LDMDA 指令 。 








scending, ^D") 
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表 3.11 堆栈 操作 寻 址 方式 








ARM 制定 了 ARM-Thumb 过 程 调用 标准 (ATPCS) ,定义 了 例 程 如 何 被 调用 ,寄存 器 
如 何 被 分 配 。 在 ATPCS 中 ,堆栈 被 定义 为 递减 式 满 堆 栈 , 因 此 LDMFD 和 STMFD 指令 分 
别 用 来 支持 pop 和 push 功能 。 


【 例 3.20】 STMFD 指令 把 寄存 器 内 容 放 和 人 堆栈 ,并 更 新 sp 的 值 。 
图 3. 7 显示 了 在 一 个 递减 式 满 堆栈 上 的 push 操作 ,可 以 看 到 堆栈 指针 的 变化 并 指向 堆 
栈 的 满 位 置 。 


POST ”地址 





图 3.7 STMFD 指令 一 一 递减 式 满 堆栈 的 push 操作 


PRE 
rl = 0x00000002 
r4 = 0x00000003 
sp = 0x00000004 


STMFDsp!, (rl, r4) 


POST 
rl = 0x00000002 
r4 = 0x00000003 
sp = 0x0008000c 


[65.21] 显示 在 一 个 递减 式 空 堆栈 上 ,使 用 STMED 指令 完成 的 一 个 push 操作 ( 见 
图 3.8), STMED 指令 把 寄存 器 内 容 压 栈 ,但 sp 指向 了 下 一 个 空位 置 。 
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图 3.8 STMED 指令 一 一 递减 式 空 堆栈 的 push 操作 


PRE 
r1 = 0x00000002 
r4 = 0x00000003 
sp = 0x00080010 


STMED sp!, (rl, r4} 


POST 
r1 = 0x00000002 
? r4 = 0x00000003 
sp = 0x00080008 


若 要 检查 一 个 堆栈 , 须 关注 堆 栈 的 3 Е ERE ORBE ERRA. ЖИД 
夏 是 堆栈 在 存储 器 中 的 起 始 地 址 ; 码 夏 珍 外 初始 时 指向 堆栈 基 址 单元 , 随 着 数据 压 栈 ,堆栈 
指针 连续 移动 并 始终 指向 栈 顶 ;如 果 堆 栈 指针 超出 了 雄 秦 魔 币 o HUE SN 
面 的 一 小 段 代码 用 于 检测 递减 式 堆栈 的 溢出 错误 ， 

SUB sp, sp, #size 

CMP sp, г10 

BLLO — stack overflow ;条 件 


ATPCS 把 寄存 器 r10 定义 为 堆栈 限制 或 sl(stack limit) 。 这 是 一 个 可 选 的 操作 ,因为 
堆栈 检查 只 有 在 堆栈 检查 使 能 的 时 候 才 可 使 用 。BLL0 指令 是 一 个 加 了 条 件 助 记 符 LO 的 
带 链接 的 分 支 指令 。 如 果 在 执行 一 个 push 操作 后 ,sp 小 于 rl0, 就 发 生 了 堆栈 溢出 错误 。 
如 果 堆 栈 指针 在 执行 pop 操作 后 ,超出 了 堆栈 基 址 ,那么 就 产生 了 堆栈 下 滋 (stack under- 
flow) 错 误 。 
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3.3.4 х5 


交换 指令 是 load-store 指令 的 一 种 特例 , 它 把 一 个 存 钳 器 单元 的 内 容 与 寄存 器 内 容 相 
交换 。 交 换 指令 是 一 个 原子 操作 (atomic operation) 一 一 在 连续 的 总 线 操作 中 读 / 写 一 个 存 
储 单元 ,在 操作 期 间 阻 止 其它 任 何 指令 对 该 存储 单元 的 读 / 写 。 
语法 ， 

SWP (Bj {солду} Rd, Rm, [Rn] 
tmp mem32[ Rn] 


mem32[ Rn] & Rm 
Rd= tmp 


їтр= mem$í( En ] 
SWPB * E mem8[ Rn]—- Rm 
Rd= tmp 


tSS uoyonasur Nav eur or ооцопроди e 





交换 指令 在 执行 期 间 不 能 被 其 它 任何 指令 或 其 它 任 何 总 线 访问 打 断 ,在 此 期 间 系统 “ 占 
据 总 线 (holds the bus)", EU SEN, 


【 鲍 3.22】 使 用 交换 指令 把 一 个 存 情 器 单元 的 内 容 放 到 寄存 器 r0, 然 后 把 1 的 内 容 
存储 到 该 内 存单 元 中 去 。 


PRE 
mem32[ 0x9000] = 0x12345678 
r0 = 0x00000000 
г1 = 0х11112222 
r2 = 0x00009000 
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БЕР r0, rl, [r2] 


POST 
mem32| 0x9000 | = 0x11112222 
rü = 0x12345678 
rl = 0x11112222 
r2 = 0x00009000 


交换 指令 多 用 于 实现 操作 系统 中 的 信号 量 和 互 斥 操作 。 从 指令 的 语法 可 以 看 到 ,这 条 
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指令 可 以 有 一 字 节 修饰 符 B, 所 以 交换 指令 可 以 有 字 交 换 和 字 节 交换 两 种 形式 。 


[53.23] 显示 使 用 SWP 指令 来 保证 数据 交换 期 间 不 被 其 它 任务 改写 ,是 一 个 信号 
量 积 和 作 的 简单 实现 。SWP 指令 “占据 总 线 ”, 直 至 交换 完成 。 


spin 





MOV rl, = semaphore 
MOV r2, #1 

SWP r3. r2, [ri] hold the bus until complete 
CMP r3, #1 
BEQ 


spin 


例子 中 ,由 全 号 量 (semaphore) 指 向 的 地 址 单元 中 或 者 是 0, 或 者 是 1， 如果 信和 号 量 为 
1, 则 说 明 该 服务 正 被 另 一 个 过 程 使 用 ,程序 将 继续 循环 ,直至 该 服务 被 释放 -一 -信号 重地 址 
位 置 的 值 变 为 0。 


3.4 软件 中 断 指 令 


әрп sJedojeAeg WOAS Way 





软件 中 断 指令 (SWD 可 以 产生 一 个 软件 中 断 蜡 常 ,这 为 应 用 程序 调用 系统 俩 程 提供 了 


一 种 机 制 。 
66 语法 ， 


SWI {cond)} SWI number 


lr. sec SWI $S P Ë PS TR 2 yh КЕ 
spsr._syc==cpsr 


SWT pc- vectors + Оха 


cpsr 模式 = SVC 
epsr 1=1 Ot É RQ 中 新 ) 





处 理 器 执行 SWI 指令 时 ,设置 程序 计数 器 pc 为 向 量 表 的 0x8 偏 移 处 ,同时 强制 切换 处 
HERAA SVC 模式 ,以 便 操作 系统 例 程 可 以 在 特权 模式 下 被 调用 。 
每 个 SWI 指令 有 一 个 关联 的 SWI 号 (number) ,用 于 表示 一 个 特定 的 功能 调用 或 特性 。 


【 例 3.24] 一 个 ARM 工具 箱 中 用 于 调试 SWI 的 例子 ,是 一 个 SWI 导 为 0x123456 的 
SWI AH. AE SW 指令 是 在 用 户 模式 下 执行 的 ， 
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PRE 
cpsr = nzcVqift USER 
pc = 0х00008000 
lr = ÜxOQO3fffff ;lr-2rà4 
rü = 0x12 
0х00008000 SWE 0х123456 
POST 


срзг = nzeVqift БУС 
враг = nzcVqift USER 
pc = 0х00000008 

lr = 000008004 

rü = 012 


SWI 用 于 调用 操作 系统 的 例 程 ,通常 需要 传递 一 些 参数 ,这 可 以 通过 使 用 寄存 器 来 完 
成 。 在 上 面 的 例子 中 ,r0 用 于 传递 参数 0x12 ,返回 值 也 通过 寄存 器 来 传递 

处 理 软件 中 断 调用 的 代码 段 称 为 中 断 处 理 程序 (SW1 Handlery。 中 断 处 理 程序 通过 执 
行 指令 的 地 址 获取 软件 中 断 号 ,指令 地 址 是 从 lr 计算 出 来 的 。 

SWISJU riz. 


SWI Number = (SWI instruction) AND NOT(OxFfO0000D0) 
其 中 SWI instruction 就 是 实际 处 理 器 执行 的 32 位 SWI 指令 ， 


[53.25] SWTI 处 理 程序 开始 部 分 的 实现 。 

这 个 片段 代码 计算 了 正 被 调用 的 SW 号 ,并 把 它 放 进 r10。 从 这 个 例子 中 可 以 看 到 ， 
load 指令 先 拷贝 整个 SWI 指令 到 寄存 器 r10, 热 后 使 用 BIC RET dE B0 8 位 ,获取 
SWI 号。 这 里 假定 SWI 是 在 ARM 状态 下 被 调用 的 。 


SWI handler 
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i 
+ REETH rO-.r12 和 lr 
STMFD spl , (r0- г12,1к} 


:read the SWI instruction 
IDR r10, [ir, # -4] 
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;mask off top 8 bits 
BIC r10, r10, #0х#ғ000000 


:г10 - contains the SWI number 


BL service routine 


;return from S41 handler 
ОНЕР spl, (r0ü-ri2, peb 


然后 ,在 寄存 器 ri0 中 的 值 (SWI 导 ) 将 被 SW 处 理 程序 用 于 调用 相关 的 SWI 服务 子 程序 。 


3.5 程序 状态 寄存 器 指令 


ARM 指令 集 提供 了 2 条 指令 ,可 直接 控制 程序 状态 寄存 器 (psr) MRS 指令 用 于 把 
cpsr 或 者 spsr 的 值 传送 到 一 个 寄存 器 ;MSR 与 之 相反 ,把 一 个 寄存 器 的 内 容 传送 到 cpsr 或 
者 spsr。 这 2 条 指令 结合 ,可 用 于 对 cpsr 和 spsr 进行 读 / 写 操作 ， 
指令 语法 : : 


MRS (cond?) Rd ,(cpsr[spsr) 
MSR («cond?) 《epsr|spsr) (fields), Rm 
MSR ‘<cond}} (cpsr| spsr?, (fields), # immediate 


| MRS |#ижК&# ТИЕШЕ аав 


在 指令 语法 中 可 看 到 一 个 称 为 fields( 域 ) 的 项 , 它 可 以 是 控制 (e) ,扩展 (x) ,状态 (s) 及 
标志 (人 站 的 任意 组 合 。 这 些 域 及 其 在 程序 状态 寄存 器 中 的 特定 字 节 区 域 ,如 图 3.9 所 示 

图 3.9 中 ,控制 域 控制 中 断 屏蔽 Thumb 状态 和 处 理 器 模式 。 例 3. 26 将 说 明 如 何 通过 
清除 1 屏蔽 位 来 使 能 IRQ 中 断 。 这 个 例子 使 用 了 MRS 和 MSR 指令 来 读 / 写 cpsr。 


【 例 3.26] MSR 指令 先 把 cpsr 的 值 复制 到 了 1; 然后 使 用 BIC 清除 rl 的 位 7; 8 fE Fi 
MRS 把 r1 的 值 复制 到 epsr, 使 能 IRQ PH. 
从 这 个 例子 可 以 看 到 代码 如 和 何 保护 cpsr 中 的 其 它 设置 位 ,而 只 修改 控制 域 的 IT 位。 







cpsr = nzevgiFt SVC 
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域 标志 [24:31] 状态 [16:23] 扩展 [8:15] 控制 [0:7] 


位 31302928 7654 0 





图 3.9 psr 字 节 域 定义 


MRS rl, cpsr 
BIC rl, rl, 40x80 ; 001000000 
MSR cpsrc, rl 


POST 
срзг = nzcvqiFt SVC 


这 个 例子 是 在 SVC 模式 下 执行 的 。 在 用 户 模式 下 可 以 读 取 cpsr, 但 只 能 更 改 条 件 标志 域 f。 


3.5.1 协 处 理 器 指令 


协 处 理 器 指令 用 于 扩展 指令 集 。 协 处 理 器 指令 既 可 用 于 提供 附加 的 计算 能 力 , 又 可 用 
于 控制 包括 cache 和 内 存 管理 的 存储 子 系统 。 协 处 理 器 指令 包括 数据 处 理 、 寄 存 器 传输 及 
内 存 传输 指令 。 这 里 只 对 协 处 理 器 指令 进行 简要 说 明 , 因 为 协 处 理 器 指令 和 具体 的 协 处 理 
器 相关 。 


注意 : 协 处 理 器 指令 只 用 于 带 有 协 处 理 器 的 ARM 核 。 
语法 : 
СОР ((cond)) ср, opcodel, Cd, Cn {, opcode2) 


(MRC| MCR) { (сопа) } ср, opcodel, Rd, Cn, Cm{, opcode2) 
(LDC|STC) ( (cond) ) cp, Cd „addressing 


协 处 理 器 数据 处 理 一 一 在 协 处 理 器 内 部 执行 一 个 数据 处 理 操作 
协 处 理 器 寄存 器 传输 一 一 把 数据 送 入 或 取出 协 处 理 器 寄存 器 


协 处 理 器 内 存 传输 一 一 从 协 处 理 器 装载 /存储 一 个 内 存 数据 块 
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在 协 处 理 器 指令 语法 中 ,cp 域 代表 协 处 理 器 的 编号 ,为 pO p15. opcode BH Xe ТЕ 
Brak Ee SS PUT UNE, Сл, Cm Z Cd 描述 在 协 处 理 器 中 的 寄存 器 。 协 处 理 器 的 操作 和 寄 
存 器 依赖 于 具体 使 用 的 协 处 理 器 。 协 处 理 器 15(CP15) 是 为 系统 控制 预 留 的 ,如 内 存 管 理 、 
写 缓 冲 控制 cache 控制 及 寄存 器 识别 等 。 


СИ 3.27] 把 一 个 CP15 审 存 器 拷贝 到 一 个 通用 寄存 器 ， 
;把 协 处 理 器 CP15 РДЕ co 的 内 容 拷贝 到 z10 
МЕС pl5,0,r10,c0,c0,0 


这 里 CP15 寄存 器 cO 中 包含 处 理 器 标识 (processor id number ,其 内 容 被 拷贝 到 通用 
寄存 器 г10, 


3.5.2 协 处 理 器 15(CP15) 指 今 语法 


.CP15 可 以 配置 处 理 器 核 , 并 有 一 组 专用 的 寄存 回 用 于 存储 配置 信息 ,如 例 3. 27 所 述 。 
通过 写 一 个 值 到 一 个 害 存 带 来 设置 一 种 配置 属性 一 一 比如 ,打开 cache, 

CP15 被 称 为 系统 控制 协 处 理 器 。MRC 和 MCR 指令 用 于 读 / 写 CP15 ,在 语法 中 Rd 是 
内 核 目标 寄存 器 ,Cn 是 主 寄存 器 ,Cm 是 辅 寄存 天 ,opcode2 是 辅 寄存 器 修饰 符 。 输 寄存 器 
通常 也 被 称 为 “扩展 寄存 器 ”， 

下 面 这 个 例子 ,把 CP15 的 控制 寄存 器 cl SARRAT rl 中 ， 


МЕС р15,0,г1,с1,с0,0 

为 了 便于 对 CP15 的 配置 寄存 器 进行 说 明 ,使 用 下 面 的 缩写 格式 ， 

CP15.cX;cY.Z 

第 1 部 分 ,CP15 定义 它 是 协 处 理 器 15; 冒 号 后 的 第 2 部 分 是 主 寄存 器 ,X 是 一 个 0 一 15 
的 值 ;第 3 部 分 是 辅 寄存 器 或 扩展 寄存 器 ,Y 可 以 是 一 个 0—15 的 值 :最 后 一 项 是 opcode2， 
opcode? 可 以 是 一 个 0—7 НИҢ. 

有 些 操作 可 能 用 到 一 个 非 堂 值 (w) 的 opeodel ,这 种 格式 表示 为 ; 

CPi5, W:cA;cY.Z 
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3.6 常量 的 装载 


| 读者 可 能 已 经 注意 到 ,ARM 指令 不 用 于 把 一 个 32 位 常量 装 人 寄存 器 。 因 为 ARM 指 
令 本 身 是 32 位 的 ,所 以 指令 中 不 可 能 再 定义 一 个 普通 的 32 位 常量 。 
为 了 使 于 编程 ,ARM 增加 了 2 条 伪 指 令 , 用 于 把 一 个 32 位 的 常量 送信 害 存 器 ， 
Жі: 
LDR Ка, =constant 
ADR Ва, label 


第 1 条 伪 指 令 用 于 把 一 个 32 BURGOS А arz as, ААИ urti t. И ЗЕ 8 U BË 


的 指令 。 如 果 要 执行 的 操作 不 能 用 其 它 指令 来 编码 ,那么 LDR ERT EMRE. 第 2 ЖОН 
令 把 一 个 相对 地 址 写 人 寄存 器 中 , 它 将 会 使 用 一 个 包括 pe 相对 地 址 的 表达 式 进行 编码 。 


【 例 3.28】 显示 使 用 LDR 指令 把 一 个 32 位 常量 ООНА ЯТА 10, 


LDR rO, {рс. j'eonstant number - 8 - {PC}] 


jes UORONYSUI ANY eut OJ uouonpouur € 
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cons tant number 
DCD ÜxffOOffft 


这 个 例子 使 用 了 存储 器 访问 来 装载 常量 ,这 对 于 时 间 要 求 苛刻 的 程序 来 说 代价 是 较 高 
的 。 例 3. 29 使 用 另 一 种 方法 来 实现 同样 的 功能 一 一 使 用 МУМ 指令 。 


С 3. 251 使 用 MVN 指令 装载 常量 ОхНооНН 到 寄存 器 то. 


РВ <> 
MUN їфб,#0х00ЁЁ0000 
POST 
LO = OxffÜOffff 


3t 3. 12 列 出 两 条 伪 指 令 在 执行 不 同 常量 装载 时 的 不 同 转换 。 第 1 条 伪 指 令 使 用 了 一 
条 简单 的 MOV 指令 ;第 ? 条 伪 指 令 使 用 了 一 个 pc 相对 地 址 的 load ,推荐 使 用 这 种 伪 指令 
来 装载 常量 ,让 编译 器 或 汇编 器 来 选择 实际 的 转换 指令 。 使 用 反 汇 编 的 方法 可 以 看 到 编译 
里 或 汇编 器 在 常量 装载 时 具体 选择 的 指令 ， 
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m 3.12 ТЕНЕ 


34 4 案 际 执行 的 指令 
LOR го, = 0xff МОУ r9, # 0xH 
LDR т0, == 0x55555555 LDR гб. pe, Н offset. 123 





从 表 3.12 中 可 以 看 出 ,可 以 避免 存 铺 器 访问 而 使 用 其 它 的 指令 来 达到 同样 的 效果 ,但 
这 依赖 于 所 要 装载 的 常量 的 内 容 。 好 的 编译 器 和 汇编 器 会 使 用 灵活 的 方法 来 避免 从 存储 赂 
装载 常量 ,这 些 工具 有 一 些 算法 来 寻找 指令 所 需要 产生 的 最 理想 的 数 , 并 最 大 限度 地 使 用 桶 
形 移 位 器 ,用 最 佳 的 指令 完成 操作 。 如 打通 过 这 些 方法 不 能 产生 所 党 的 常量 ,那么 就 使 用 访 
问 寄存 器 的 方法 解决 。LDR 伪 指 令 的 执行 或 者 是 用 一 条 МОУ 指令 ,或 者 是 用 一 条 МУМ 
指令 来 产生 一 个 值 (如 果 可 能 ) ,或 者 是 用 一 条 LDR 指令 从 一 个 pe 相对 的 存储 器 地 址 中 读 
ЖОЕ Cr ИЕМ PHREEK). 

另外 一 条 比较 有 用 的 伪 指 令 是 ADR ,或 者 称 为 一 个 相对 地 址 指令 ， 它 可 以 把 一 个 指定 
标号 的 地 址 ,使 用 一 个 pc 相对 地 址 的 加 或 减 放 人 寄存 器 Ка, 


3.7 АВМУ5Е 扩展 





ARMv5E 扩展 提供 了 许多 新 的 指令 (参见 表 3. 13) 。 其 中 最 重要 的 指令 是 16 位 数据 的 
有 符号 乘 累 加 指令 。 这 些 指令 在 许多 ARMv5E 的 实现 上 都 可 以 在 一 个 周期 内 完成 。 

ARMY5E 在 操作 16 位 数据 时 提供 了 更 好 的 性 能 和 更 大 的 灵活 性 ,这 对 于 诸如 16 位 数 
字音 频 处 理 等 许多 应 用 是 很 重要 的 。 


$ 3.13 ARMY5E 新 增加 的 指令 











THR 

有 符号 32 [pm 

有 符号 邓 32 fif fm 

有 符号 双 32 prc RR 

有 符号 32 位 已 和 减法 

# S 32 u RICO 

有 符号 64 fs P RU 
ЖӘ 32 {0 Ж KI 
48 9 EO 
ARRERA) 


CLZ(« соті} Rd, Rm 
QADD «cond7»] Rd, Rm, Rn 

QDADD{ <cond>} Rd,Rm,En 

QDSUR{ «cond» ) Rd, Rm, Rn 

QSUB! rond >] Rd, Rm, Rn 
ЗМІА ху! сога } Rd. Em, Rs, En 
SMLALxyl«cond7-) В.о, RAHi, Rm, Rs 
SMLAWy|« cond) Rd, Rm, Rs. Rn 
SMULxy(-« cond] Rd,Em,Rs 
SMULW yi «cond } Rd, Rm Rs 
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3.7.1 PHRES 


零 计 数 指令 用 于 计算 最 高 符号 位 与 第 一 个 1 zm TE. 

[53.30] 一 个 CLZ 的 例子 。 

这 个 例子 中 ,rl 中 的 第 一 个 1 的 位 前 面 有 27 个 0, 执行 CLZ 后 r0 的 值 为 27， 
CLZ 指令 在 规格 化 数据 时 非常 有 用 。 


PRE 
r1—050000000000000000000000000001 0000 
CLZ 0,1] 
POST 
rü-27 


{95 uogonuisu| We eui О; uouyonpoiaur € 


3.7.2 饱和 算术 指 今 

Ж ИН ARM 算术 指令 在 整数 溢出 时 自动 回 卷 , 例 如 0x7fHH 十 1= 一 0x80000000。 
因此 ,在 设计 算法 时 ,必须 注意 不 能 超出 一 个 32 位 整数 的 最 大 表示 范围 

【 例 3.31】 旺 示 最 大 值 超出 范围 的 情况 ， 
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срт = nzevgirt Sve 

го == 000000000 
rl-0x70000000 (ОЕ) 
r2=0x7fFFffff (EXO 


ADDS rü, rl, r2 


POST 
срзг = NzcVgqiFt БҮС 
rO  —ÜxeffffE££ M Woo 
在 例 3. 31 中 ,寄存 器 11 A ARER r2 — 0xefffiffi, P @Ж 32 位 整数 的 最 大 正教 
值 。 在 执行 后 本 打算 得 到 一 个 更 大 的 正 数 , 但 是 在 执行 后 发 生 溢出 , 变 成 了 一 个 负数 ,同时 
Bos VEU. 
EH] ARMvSE 184, 3 n] 8] — i E— REER, tS R 3k 8535 E iÓ 





Әріп) suSdolSASq ulelsAS ASIN 
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正 数 0x7fffffff。 这 就 可 以 避免 使 用 额外 的 代码 来 检查 可 能 的 溢出 。 表 3. 14 列 出 了 
ARMv5E 的 所 有 愧 和 指令 





X3.14 НЮ 
——————————————— 
№ 地 ttit 
QADD Rd=Rn + Rm 
QDADD Кд=Кп +(Rm * 2) 
QSUR Rd= Rn— Rm 
QDSUB Rá-Rn-iRm + 2) 





[53.32] 使 用 QADD 指令 完成 例 3. 31 同样 的 加 法 ， 


PRÉ 
cpsr = nzcvqiFt SVC 
г0 = 0x00000000 
г1=0х70000000 (JE#) 
I2—OXxTFffffff (EMO 


QADD 10, rl, r2 
POST 

сораг = nvcvQiFt SVC 

rÜ— Ox7fffffff 


可 以 看 到 ,在 寄存 器 ro 中 保存 了 饱和 数 ,同时 Q 位 (cpsr rh DREE. Q Ei 
肖 伯 和 发 生 , 它 将 一 直 保持 ,直至 程序 显 式 地 清除 。 


3.7.3 АВМУ5Е 乘法 指令 


$ 3. 15 列 出 了 所 有 ARMVSE HRES. Д.х у 分别 用 于 选择 一 个 32 位 寄存 
名 中 的 2 个 16 位 哪个 作为 第 一 操作 数 ,哪个 作为 第 二 操作 数 。 这 个 域 设置 为 ,表示 使 用 
高 16 位 ;设置 为 B, 表 示 使 用 低 16 位 。 对 于 32 位 结果 的 乘 累 加 操作 ,Q 标志 位 指示 累加 是 
否 溢出 了 有 符号 32 位 值 。 
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3315 $SHHeÓ3EHWERmBT 



























指 + 5S AELX] £u 计算 操作 

ЗМІ.Аху (18-bit ж Y6-bity + 32-bit 更 m * Rs.y)+ Кп 
SMLALxy (18-bit ж 15-bit) + 64-bit 无 影响 | [RdaHi,RdLoj] 十 = Rm.x *Rs y 
SMLAWs ((32-bit ж 18-bit) >> 185 2-32- hit 更 新 Ка= (Еш = Rs, y) >> 16--Ва 
SMULxy (1&-bit. + 16-bit LEH Rd—Rm,x + Rs, у 

SMULWy ((32-bit * 16-bit} >> 16) 无 影响 | Rd= CRm* Rs. y) >> 16 









[Я 3.331 BORDE EH ie, 
这 里 使 用 有 符号 乘 累 加 指令 SMLATB, 


PRE 
rl = 0х20000001 
r2 = 0х20000001 
r3 = 0х00000004 


SMLATB rd, rl, r2, r3 


POST 
r4 = 0x00002004 


指令 把 寄存 器 rl 的 高 16 位 乘 以 寄存 器 r2 的 低 16 位 ,结果 累加 到 寄存 器 r3, 并 把 它 写 
到 目标 寄存 器 r4 rh. 


3.8 条 件 执行 


ХАЖ ARM 指令 是 可 条 件 执行 的 ,可 指定 指令 只 有 当 条 件 代 码 标志 与 给 定 的 条 件 匹 
配 时 才 执 行 。 通过 使 用 条 件 执行 ,可 以 改善 性 能 和 提高 代码 密度 。 
条 件 码 是 跟 在 指令 助 记 符 后 面 的 2 个 字母 , 缺 省 条 件 是 Al.(always execute) , 即 无 条 件 
执行 。 
条 件 执行 碱 少 了 分 支 指令 的 数目 ,相应 地 减少 了 指令 流水 线 的 排 空 次 数 , 从 而 改善 了 执 
行 代 码 的 性 能 。 条 件 执行 主要 依赖 于 两 部 分 ,条 件 码 和 条 件 标志 。 条 件 码 位 于 指令 中 ,条 件 
标志 位 于 cpsr H, 
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[9i 3.34] 使 用 一 个 带 有 EQ 条 件 码 的 ADD 指令 ,指令 只 有 在 epsr 的 zero 位 为 1 时 
才 被 执行 。 


;rü-ri + r2 if лего flag is set 


ADDEQ rü, ri, г? 
只 有 带 S SRI SB SCRIBE RE RB SS EP EE cpsr 中 的 条 件 标志 。 


[913.35] 为 了 说 明 条 件 执行 的 优点 ,通过 这 个 例子 中 的 一 个 简单 的 上 代码 片段 ; 比 
较 使 用 条 件 执行 指令 与 不 使 用 条 件 执行 指令 时 的 汇编 代码 情况 。 
while (al- b) | 
{ 
if (a>b) a -= b; else b -= а 
} 


这 里 使 用 寄存 器 l 代表 a, 寄存 器 2 代表 b。 下 面 的 代码 是 在 ARM 汇编 器 缩写 的 同 
样 算法 ( 求 最 大 公约 数 ) 的 汇编 代码 ,其 中 只 使 用 了 可 条 件 执行 的 分 支 指令 ,其 它 指令 都 不 是 
条 件 执行 的 。 
т у 





әрп 5!ӘСОЮЛӘС] UJeisAS NAY 


god 
СИР rl, гг 
BED complete 
BLT lessthan 
SUB rl, ri,r2 
B god 
Leessthan 
SUB r2, r2,r1 
B ged 
Complete 
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现在 与 全 部 使 用 条 件 执 行 的 代码 来 比较 。 可 见 , 使 用 条 件 执行 可 大 幅度 地 减少 指令 
WB. 


ged 
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3.9 总 结 





本 章 讲述 了 ARM 指令 集 。 所 有 ARM 指令 都 是 32 位 的 。 算 术 指 令 .逻辑 指令 .比较 
指令 及 MOVE 指令 可 使 用 内 说 的 彬 形 移 位 器 ,以 便 在 第 2 个 寄存 器 Rm ЖА ALU 之 前 ， 
ХЕТТА. 

ARM 指令 集 有 3 种 类 型 的 load-store 指令 : 单 寄 存 器 的 load-store 指令 .多 寄存 器 的 
load-store 指令 及 交换 指令 。 多 寄存 器 load-store 指令 为 堆栈 的 push-pop 操作 提供 了 -种 
有 效 的 实现 方式 。ARM-Thumb 过 程 调 用 标准 (ATPCS) 把 堆栈 定义 为 消解 式 洲 雄 乒 ， 

软件 中 新 指令 产生 一 个 软件 中 断 ,使 处 理 器 进入 SVC 模式 , 即 这 条 指令 调用 了 特权 操 
作 系统 例 程 。 程 序 状态 寄存 器 指令 可 对 cpsr 和 spsr 进行 读 / 写 。ARM 中 还 有 专门 用 于 优 
化 32 位 常量 装载 操作 的 特殊 伪 指 令 。 

ARMv5E 扩展 引 人 了 零 计 数 . 侈 和 运算 及 增强 乘法 指令 。 零 计数 指令 可 计算 一 个 二 进 
制 数 的 前 导 零 的 个 数 ; 饱 和 运算 用 来 处 理 超过 32 位 整数 值 的 算法 计算 ;增强 乘法 指令 为 
16 位 乘法 提供 了 更 大 的 灵活 性 。 

大 多 数 的 ARM 指令 可 被 条 件 执行 ,对 一 个 特定 的 算法 ,使 用 条 件 指令 可 大 幅度 减少 所 
需 的 指令 数目 。 


TƏS Uoyonursur WAY eut OF uouyonpoaur ç 
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= E 
Thumb 指令 集 


е Thumb # & # & # # 

€ ARM-Thumb $ 3 

e ¿++ 13 

e КАНКА 

e £45 ioad-store # 
e $#8Ё € load-store # + 
° а 

е ёй А 

e £ 8 











4 Thumb 指 今 集 


本 章 介绍 Thumb 指令 集 。Thumb 把 32 位 ARM 指令 集 的 一 个 子 集 进行 编码 ,成 为 一 
个 16 位 的 指令 集 。 在 16 位 外 部 数据 总 线 宽 度 下 ,在 ARM 处 理 器 上 个 用 Thumb 指令 的 性 
能 要 比 使 用 ARM 指令 的 性 能 更 好 ;而 在 32 位 外 部 数据 总 线 宽度 下 ,使 用 Thumb 指令 的 性 
能 要 比 使 用 ARM 指令 的 性 能 差 。 因 此 ,Thumb 指令 多 用 于 存储 器 受 限 的 一 些 系统 中 。 

相对 于 ARM 指令 集 ,使 用 Thumb 指令 集 可 获得 更 高 的 代码 密度 一 一 一 个 可 执行 的 程 
序 在 内 存 中 所 占 的 空间 。 在 存储 器 受 限 的 能 人 式 系统 中 , 比如 移动 电话 .PDA 等 ,代码 密度 
是 非常 重要 的 ;同时 ,成 本 压力 也 会 限制 存储 器 的 大 小 .数据 宽度 和 速度 。 

平均 而 言 ,对 于 同一 个 程序 ,使 用 Thumb 指令 实现 所 需 的 存储 空间 ,要 比 等 效 的 ARM 
指令 实现 少 30% 左 右 。 图 4, 1 显示 了 对 于 实现 同样 的 除法 运算 ,使 用 ARM 指令 和 使 用 
Thumb 指令 的 汇编 代码 ， 虽 然 Thumb 指令 的 实现 使 用 了 更 多 的 指令 ,但 是 它 所 占 的 总 的 
存 情 空间 却 出 较 小 。 代 码 密 度 是 Thumb 指令 集 的 一 个 主要 优势 。 由 于 Thumb 指令 集 的 
设计 是 面 身 编 译 器 的 ,而 不 是 针对 手写 汇编 的 ,所 以 推荐 使 用 高 级 语言 如 C RE CH 
来 编程 ,然后 用 编译 器 生成 Thumb 指令 的 目标 代码 。 





ARM 代码 Thumb 代码 
ARM 除法 Thumb 除法 
; 输入 ; т} ri 除数 }》 ЖА: то), r 【除数 ) 
; 输出 ; 2 (HRD 3 (Wg) ds 02 С) 3 С) 
МОУ r3, 80 MOV 13, #0 
loop loop 
SUBS г), m rl ADD r3, #] 


1ƏS uogonujsur quanuj eur or: uogonpodgu] р 


ADDGE:3, 13, #1 SUB rO, rl 
BGE loop BGE loop 
ADD rZ, 10, rl SUB r3, #1 
ADD 12, 10, rl 
$x4-20 bytes бх2=12 bytes 





Wil 代码 密度 


每 一 条 Thumb 指令 都 和 一 条 32 位 的 ARM 指令 相关 ,图 4,2 显示 了 一 条 Thumb 加 法 
指令 ADD 译 码 成 等 将 的 ARM 加 法 指令 。 

表 4.1 给 出 了 在 ARMv5TE 架构 下 的 THUMBv2 中 所 有 的 Thumb 指令 。 在 Thumb 
ISA 中 ,只 有 分 支 指令 可 被 条 件 执行 ;同时 由 于 16 位 空间 的 限制 , 桶 形 移 位 操作 如 ASR, 
LSL,LSR fll ROR ,也 变 成 单独 的 指令 。 
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Thumb 16 位 指令 ARM 22 位 指令 


ADD r0, = = ADDS 10,0, 


cpsr = psr=nzvqfTSVC O oO T_SVC 


图 4.2 Thumb 指令 译 码 








表 4.1 Thumb 指令 集 
助 记 符 Thumb ISA & ж 
ADC vl 带 进位 的 32 位 加 
ADD vl 32 位 加 
AND vl 32 位 逻辑 位 与 
ASR vl 算术 右 移 
B vl 跳 转 指令 
BIC vl 32 位 逻辑 位 清除 (AND NOT) 
BKPT v2 断 点 指令 
BL vl 带 链接 相对 跳 转 指令 
BLX v2 带 交换 的 跳 转 指令 
CMN vl 32 位 相反 数 比较 
CMP vl 32 位 比较 
EOR vl 32 位 逻辑 异 或 
LDM vl 从 内 存 装载 多 个 32 位 字 到 ARM 寄存 器 
LDR vl 从 一 个 内 存 虚拟 地 址 转载 一 个 单一 的 值 
LSL vl 逻辑 左 移 
LSR vl 逻辑 右 移 
MOV vl 把 一 个 32 位 值 送 人 寄存 器 
MUL vl 32 位 乘法 
MVN vl 把 一 个 32 位 值 逻辑 取 反 后 送 入 寄存 器 
NEG vl 取 反 
ORR vl 32 位 逻辑 或 
POP vl 从 堆栈 中 取 多 个 值 到 寄存 器 
PUSH vl 多 寄存 器 人 栈 


——————————— CG C ÉL 











4 Thumb 指令 集 





Ж 4.1 
SBC vi 带 进位 的 32 位 正法 
STM vl 把 多 个 32 Sr fe an e Bj Pq fr 
STR v1 1E — 4 SEHE 88 80 (8 #FW SJ АЕ B d E b 
SUB vl 32 frei 
SWi vl кей 
TST vi 32 位 位 测试 





4.1 Thumb 寄存 器 的 使 用 


f£ Thumb 状态 下 ,不 能 直接 访问 所 有 的 寄存 器 ,只 有 寄存 器 1067 是 可 以 被 尾音 访问 
的 ,如 表 4,2 所 列 。 寄 存 器 T8112 只 能 通过 MOV, ADD st CMP 指令 来 访问 。CMP 指令 
和 所 有 操作 r0~r? 的 数据 处 理 指令 都 会 影响 epsr 中 的 条 件 标 志 。 


34.2 Thumb Ж ЁШ 


Ies чоңогщвы quunul әц оу uogonposu] p 





жак % ñ 81 
фут? 完全 访问 
r8~-rl3 R Rü МОУ, ADD Е СМР 访问 
r13 sp E gl Us eg 
г14 lr 限制 访问 
г15 pe 限制 访问 
epsr 只 能 间接 访问 
spar 不 能 访问 


M 4. 1 和 表 4.2 可 以 看 出 ,不 能 直接 访问 cpsr 和 spsr。 换 名 话说 ,没有 与 MSR 和 
MRS 等 价 的 Thumb 指令 ， 

为 了 改变 cpsr 或 spsr 的 值 ,必须 切换 到 ARM 状态 ,使 用 MSR 和 MRS 来 实现 。 同 
样 ,在 Thumb 状态 下 没有 协 处 理 器 指令 ,要 访问 协 处 理 器 来 配置 cache 和 进行 内 存 管理 ,也 
必须 在 ARM 状态 下 ， 





ARM RAR Ж#Л A 
4.2 ARM-Thumb 交互 





ARM- Thumb X: Xr ERICA ELI CAC 十 十 语言 的 ARM 和 Thumb 代码 进行 连接 
的 方法 , 它 进行 两 种 状态 (ARM 和 Thumb) 间 的 转换 。 在 进行 这 种 转换 时 ,有 了 时 须 使 用 额外 
的 代码 ,这 些 代码 被 称 为 足 生 (veneer) 。ATPCS 定义 了 ARM fl Thumb 过 程 调用 的 标准 。 

从 一 个 ARM 例 程 调用 一 个 Thumb 例 程 ,内 核 必 须 切换 状态 。 状 态 的 变化 由 cpsr 中 
的 十 位 来 显示 。 在 跳 转 到 一 个 例 程 时 ,BX 和 BLX 分 支 指令 可 用 于 ARM 和 Thumb 状态 
的 切换 。BX lt 指令 从 一 个 例 程 返回 ,如 果 需 要 ,也 可 以 进行 状态 切换 。 

BLX 指令 在 ARMv5T PRIA, E ARMAT 核 中 ,连接 器 在 子 程序 调用 时 ,使 用 胶合 
来 完成 状态 的 切换 。 连 接 器 不 是 直接 调用 例 程 ,而 是 通过 调用 胶合 ,由 胶合 使 用 BX 指令 来 
切换 到 Thumb 状态 。 

有 2 个 版 本 的 BX 和 BLX 指令 :ARM ESMER Thumb 指令 。ARM BX 指令 只 
有 当 Rn 中 地 址 的 最 低位 为 1 时 , 才 进 人 Thumb 状态 :否则 进入 АКМ 状态 。Thumb BX 
指令 以 同样 的 方式 工作 。 


BE 


өрт) sJedojoe^eg WAS INAY 


BX Rm 
BLX Rm 1 label 


pe= Rn & Ох Не 
ВХ Thomb 版 本 分 支 切 换 T=Rnf09] 


Irz BLX 后 面 的 看 令 地 址 二 1 
pe= label , Т=0 

рс= Rm & OxffHtffe, 

T= Rm[0] 
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Thumb 版 本 带 链 接 的 分 支 切换 


与 ARM 版 本 的 BX 指令 不 同 ,Thumb BX 指令 不 能 被 条 件 执行 。 


[4.1] 显示 使 用 ARM BX 和 Thumb ВХ 的 一 个 小 代码 段 。 
可 以 看 到 ,进入 Thumb 的 分 支 地 址 的 最 低位 是 置 1 的 ,这 将 区 位 cpsr 中 的 工 位 而 进入 
Thumb 状态 。 


使 用 BX 指令 时 ,返回 地 址 不 是 自动 保留 的 ,因而 在 跳 转 指令 调用 前 ,通过 显 式 地 使 用 
МОУ 指令 来 设置 返回 地 址 。 





4 Thumb 指令 集 





ARM 代码 
CODE32 SEXE 
LDR — r0, = thunbCode + 1 ; + 1 进入 Thunb 状态 
MOV lr,po i 设置 返回 地 址 
Bx rO i 返回 Thunb 状态 
;继续 其 它 的 代码 
; Thumb 伐 码 
CODE16 1 半 字 对 齐 
thuubCode 
ADD г1,ф1 
BX lr + 返回 ARM 状态 


如 果 没 有 通过 位 0 的 强制 置 1 来 进行 状态 转换 ,那么 分 支 切 换 指 令 也 可 以 用 作 一 个 绝 
ЕЕ. 


i addressithumbCode) = 0x00010000 

1 cpsr = посуді SVC 

i rÜ = 0х00000000 

000009000 LDR rO, = thumhCode + 1 


Jes моңол и QUINUL әш OF uogonposduu1 р 


i cpsr = nzcvqIFt БҮС 
; — ro- 0x00010001 
0х00009008 ВХ rÜ 
1 cpsr = nzevqrIRT SWC 
1 TO= 0х00010001 
i pc = 0х00010000 


可 以 看 到 ,r0 ВЕНЕ WU cpsr 中 的 工 位 ,cpsr 从 执行 BX 指令 前 的 IFt 变 为 执 
FEAR IFT, pe 指向 到 Thumb 例 程 的 起 始 地 址 ， 


[54.2] 使 用 BLX 指令 代替 BX 指令 简化 了 Thumb 例 程 的 调用 ,因为 BLX 指令 在 
链接 寄存 只 lr 中 自动 设置 了 返回 地 址 。 


CODE32 
LDR +0, = thumbRoutine +1 {Ж А, Thumb 状态 
ВХ rÜ ; BK €] Thunb 代码 
;其 它 代码 
CODE16 
ThunbBout ine 
Ann rl,.H41 
BX 114 ;返回 到 ARM 状态 
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ARM BALA SUTR 


43 REDES 


有 2 个 标准 分 支 指令 的 变 体 , 即 B 指 令 ; 第 1 个 变 体 与 ARM 版 本 指令 相似 ,可 条 件 执 
行 , 跳 转 被 限制 在 有 符号 8 位 立即 数 所 表示 的 范围 内 ,或 者 是 一 256~254 字 节 ! 第 2 个 蛮 体 
不 可 条 件 执行 (没有 条 件 码 部 分 》, 但 扩展 了 有 效 跳 转 范围 一 -有 符号 的 11 位 立即 数 表示 的 
范围 ,或 一 2 048 一 十 2 046 字 节 

条 件 分 支 指令 是 Thumb 指令 中 惟一 可 以 条 件 执行 的 指令 ， 


iB. 
Bicond? label 


B label 
BL label 





BL 链接 的 分 支持 令 | 
+ = BL 后 的 指令 地 址 十 1 


BL 指令 不 可 条 件 执行 ,可 以 在 大 约 十 /一 4 MB 的 范围 内 跳 转 , 因 为 BLORI BLX) 指 令 
被 转换 成 一 对 16 位 的 Thumb 指令 , 因 侧 ,上 述 跳 转 范围 是 合理 的 .这 对 指令 中 的 第 1 条 包 
含 跳 转 偏 移 量 的 高 位 部 分 ,第 2 条 包含 其 低位 部 分 ,这 些 指令 必须 成 对 使 用 ， 

这 里 列 出 了 从 BL 子 程序 调用 返回 的 不 同 指令 ， 


MOV plr 
BX lr 
POP {рс} 


POP 堆栈 操作 指令 将 在 4.7 节 中 详细 讨论 。 


4.4 数据 处 理 指令 





数据 处 理 指令 可 以 操作 害 存 器 中 的 数据 ,包括 МОУ 指令 .算术 指令 . 移 位 指令 .逻辑 指 
,比较 指令 和 乘法 指令 。Thumb 数据 处 理 指令 是 ARM 数据 处 理 指令 的 一 个 子 集 。 


令 
语法 : 


4 Thumb 指令 集 





(ADC| ADD] AND| BIC | EOR! MOV | MUL | MVN | ХЕС | ORR! SBC | SUB) Rd, Rm 


(ADD|ASR|LSL|LSR|RORISUB) Rd, Rn # immediate 
(АО | MOV| SUB? Rd, # immediate 

(ADD|SUB) Rd, Rn, Rm 

ADD Rd; pe, # immediate 

ADD Ва, зр, # imediate 

CADD| SUB) sp, # immediate 

tASR|LSL|LSR|ROR) Rd, RS 

(CMN| CHP] TST} Rn, Rm 

СМР Rn, immediate 

MOV Rd, Rn 





带 进 位 的 32 位 加 








Rd 一 Rd 十 Rm + C flag 








SPERA S" 








HREH 












Rd= Rn + immediate 

Rd 一 Rd + immediate 

Rd—Rd + Rm 

Еі= Ва + Rm 

Rd= (pc & Oxffffffíc) + (immediate << 2) 
Rd=sp + (immediate << 2) 

Rd=sp + Gtnmmediate << 2) 










Rd- Rd & Rm 







Rd= Rm >> immediate 





C flag— Ет itmmediate-- 1) 
Rd=Rd >> Rs,C flag Rd[ Rs—1] 








32 位 逻辑 位 清 堆 
32 rik ERE 








32 位 整 教 比较 


REA RK” 








Rd= Rd AND NOT (Кт) 












Rn + Rin 





set flags 





Rn - immediate set flags 
Rn - Rm 





set flags 





Кі= Rd EOR Rm 





Ser 


Rd-Rm << immediate 
C flag- Rm[32— immediate] 
Rd-Rd << Rs,C flag= Rd[ 32—Rs] 





UT 





Rd= Rm >> immediate 
C flag — Rád[immediate— 1] 
Rd 一 Rd >> Rs, C flag= Rd[ Rs—1] 








JƏS uogonuisu| ашти SUL op чоцопрощл р 
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32 fo f E 


Rd= imtnediate 
Rd= Rn 
Rd= Ет 





把 一 个 32 (rf ЕРК P| W Ө 
求 反 
32 fg Sr R” 








32 КЕНИ 


32 pO SEDE 


Ra= (Rm + RD[31,0] 
Rd= NOT(Rm) 
Rd—-0—Rm 


Rd= Rd OR Rm 





Rd—Rd fif $ Rs 
C flagz: Ва [Rs— i] 


Rd 一 Rd 一 Rm 一 NOTKCC Пар) 





Rdá=Rn—immediste 





Rd= Rd— immediate 
Rd 一 及 n 一 及 m 
Sp-—sp- (immediate << 2) 








32 位 位 测试 指令 


Rn AND Rm set flags 


这 些 指令 与 等 价 的 ARM 指令 使 用 相同 的 格式 。 大 多 数 的 Thumb 数据 处 理 指令 操作 
寄存 器 r0~r7?, 同 时 会 更 新 cpsr。 但 是 下 剂 指令 是 例外 


MON 


Rd, En 

Rd, Rm 

Rn, Ru 

sp, # imnediate 
sp, # immediate 
Rd, sp, # immediate 
Rd, pc, Í immediate 


| p Hd A T ULBMESRETESE 8-114 和 pe。 在 使 用 2 一 r14 时 ,除了 CM 指令 外 ,其 它 
指令 不 改变 cpsr 中 的 条 件 标 志 。CMP 指令 总 是 更 新 cpsr 的 。 


[14.3] 一 个 简单 的 Thumb ADD 指令 。 


指令 带 有 两 个 寄存 器 zl 和 t2, 把 它们 相 吉 后 的 结果 放 到 寄存 器 rz0, 同 时 更 新 epsr 


їй. 





4 Thumb 指令 集 





PRE 
срёт = nzcvIFT SVC 
г1 = 0х80000000 
r2 = 0х10000000 


ADD го, rl, r2 
POST 

го = 0х9000000 

Cpsr = BzcvIFT SVC 


[54.4] 与 ARM 方式 不 同 ,Thumb 的 桶 形 移 位 操作 (ASR,LSL,LSR 及 ROR) EX 
独 的 指令 。 这 个 讽 子 显示 了 逻辑 左 移 (LSL) 指 令 ,把 寄存 器 12 乘 以 2。 


PRE 
r2 = 0x00000062 
r4 = 0х000000001 


LSL 12, r4 


195 uogonapsur quunu| әш OF uoyonposu t 


POST 
r2 = 0х00000004 
rå = 0к00000001 


完整 的 Thumb 数据 处 理 指令 列表 ,请 参见 附录 A. 


4.5 单 寄存 器 load-store 指令 


Thamb 指令 集 支持 寡 存 器 的 装载 和 存储 , 即 LDR 和 STR 指令。 这 些 指令 使 用 2 种 前 
变 址 村 址 方式 :寄存 器 偏 移 和 立即 数 篇 移 。 
ИНЕ: | 
(LDR|STR) (BI ED) Rd, [Rn, #immediate] 
LDRIXH|SBISED) Rd, [Ка, Ет | 
STR((B|ED) Ва, [Rn, Rm] 
LDR Rd, [ pe, Я immediate] 
(LDR|STR) Rd, Lsp, Simmediate] 





epine sadoq uJeJsAS у 





mm 


x - 


ARM RAA RAHA 










LDRB 









ватта тта 









LDRSB 





类 


load/store WF fr d 
Ad fM S 


表 4.3 列 出 了 不 同 的 寻 址 方式 ,第 1 RESA A W fr Sh lq ЕП Н — ERE S fr E 
Rn 加 上 寄存 器 篇 移 量 Rm; 第 2 种 寻 址 方式 使 用 基 址 寄存 器 Rn 加 上 一 个 5 位 的 立即 数 或 
者 一 个 依赖 于 数据 尺寸 的 值 。5 位 的 偏 移 在 指令 中 的 编码 根据 8 位 访问 .16 位 访问 及 32 位 
访问 ,分 别 飞 以 1,2 及 4。 


34.3 导 址 模式 


5 语 法 


[Rn,Rm] 





[ Rn, # immediate j 


ЕЕ 1k [рс | sp. # immediate] 





[#14.5] 显示 两 个 使 用 前 变 址 寻 扯 方式 的 Thumb 指令 ,它们 热 行 前 的 条 件 是 一 


Mem32[ 0x9000 = 0х00000001 
Mem32[ 0x9004 ] = 0x00000002 
Meg32| 0x8008) = 0x00000003 


rü = 0х00000000 
r1 = 0х00090000 
r4 = 0х00000004 


LER rO, [1,24] register 


rÒ = 0х00000002 
т] = 0х00090000 

















r4 = 0х00000004 
LDR г), [г1.{ 0х4) ; immediate 


POST 
TÜ = 0x00000002 


x 24890418 ERE, M&S IS 24 LDR 使 用 了 一 个 固定 偏 称 ,而 第 
1 条 LDR КИИ КЕ T RE TIERE r4。 


4.6 多 寄存 器 load-store 指令 


Thumb 指令 集 的 名 寄存 器 load-store 指令 是 ARM 指令 集 的 多 寄存 器 load-store 指令 
的 简化 形式 。 在 Thumb # 4 4& i8 d W TEE load-store 5 A RE JEFE (IA, Increment 
After) FATA. 


B. 


«LDMISTM-1A Rn, (low register list:r0~r?} 


装载 多 个 寄存 器 | (RD * с meni Rn-HE * NJ, Rna=Rn+-4 N 
FRETET | (Бар +" —> mem32[ Rn 十 4 = NLEn—Rn + 44N 


这 里 М 是 寄存 器 列表 中 寄存 器 的 数目 ， 从 表 中 可 看 到 ,指令 执行 后 总 是 更 新 基 址 寄存 
器 , 基 址 害 存 器 和 可 以 使 用 的 寄存 器 列表 仅 限于 10717, 


[9] 4.6] RE rlr 到 内 存 地 址 0x9000~0x900c, 并 且 更 新 基 址 寄存 器 14, 
需要 指出 的 基 , 这 里 更新 字符 “1* 不 是 可 选 的 ,这 与 ARM 指令 集 不 同 。 


ERE 
rl = 0х00000001 
т2 = 0x00000002 
r3 = 0х00000003 
үд = 09000 











5ТША га, (21,12,13) 
POST 
memj2|0x9000] = 0х00000001 


4 Thumb 指 今 集 





A 
г" 
3 
= 
C 
O 
= 
О 
I 
5 
чч 
=F 
由 
"aj 
= 
C 
i. 
С 
= 
3 
С 
O 
= 
o 
> 
C» 
D 








opino sledaoleAedqd UalSAS WHv 


80 


ARM Ах, #2 





mem32[0x9004] = 0200000002 
mem32[ 0x9008 | = 0х00000003 
r4 = 0х900с 
> + М. 
4.7 堆栈 指令 





Thumb 的 淮 栈 操作 与 等 效 的 ARM 指令 是 不 同 的 ,因为 它们 使 用 了 更 传统 的 POP 和 
PUSH 的 概念 。 


кт 


POP {low_register_list{ ,pe}} 
PUSH {low_register_list{ ,lr}} 


[op [uaj Rda“ «— mem32[sp- 4 x Nl],sp= р+ 4«N 
PUSH Каж № —> mem32[sp--4 + N] ,ep=sp — 4 = N 


EN: 在 指令 中 没有 淮 视 指针 ,这 是 因为 在 Thumb 操作 中 ，, 雪 存 器 r13 XR x 4338383840 S sp 
是 自动 更 新 的 。 可 操作 的 雪 存 器 列表 仅 限 于 于 存 器 rO, 


PUSH 指令 可 以 操作 的 寄存 器 还 包括 链接 寄存 器 lr, 同 样 POP 指令 可 以 操作 pe, 这 
为 子 程序 的 进入 和 退出 提供 了 支持 ,如 例 4.? 所 述 。 
XE BUE e DUE Fe CREE RE. 


[54.7] 使 用 PUSHR 和 POP 指令 , 子 程序 ThumbRoutine 使 用 带 链接 的 分 支 指令 
(BI.) 来 调用 ， 


:调用 子 程序 
BL ThumbRoutine 
1 其 它 代 码 
ThumbRoutine 
PUSH irl, lr? ATEI 
MOV то, #2 
POP (rl, rc) ;从 于 程序 返回 


链接 寄存 器 lr rl 被 讨 人 堆栈 ,在 返 加 时 ,寄存 器 r1 的 值 被 原来 的 rl 出 栈 恢 复 ,pc 被 
原来 人 人 栈 的 ir 的 值 覆盖 。 这 就 完成 了 从 子 程序 返回 。 














4 Thumb 指令 集 





4.8 软件 中 断 指令 


与 ARM 指令 集 下 的 软件 中 断 指 令 相似 ,Thumb 软件 中 断 指令 4SWIT) 也 产生 一 个 软件 
中 断 异 常 。 在 Thumb 状态 下 ,如果 有 任何 中 断 或 者 异常 标志 出 现 ,那么 处 理 器 就 会 自动 回 
到 ARM 状态 去 进行 异常 处 理 。 
ЖЖ: 


SWI immediate 


lr_sve 一 SWI 之 后 的 第 一 条 指令 的 地 址 
spsr svc—cpst 


pe= vertors + 0x8 


cpar 模式 一 SVC 
epsr I 1CRERE IR Q 中 断 ) 
epsr T2 QC ARM ЖЖ) 


1ƏS uoyonisut quanu eur OF uogonpoqguT p 





Thumb SWI 指令 与 等 效 的 ARM 18/48 ELFE RO EJ Лр SE 2 #H ТА ЕЕ. DUREE 
Thumb SWI 数目 限制 在 0~255, 并 且 不 能 条 件 执行 。 

[54.8] 显示 Thumb SW 的 执行 。 

iN: 在 投行 该 指令 后 ;处 理 茵 从 Thumb k fb S) ARM 状态 。 


PRE 
cpsr = nzcVqifT USER 
рс = 0х00008000 


ir = OxÜDSfffff rlr = r14 
rÜ =0xl2 

0х00008000 SWI 0x45 

POST 


cper = nzcWqift SVC 
врат = nzcVqifT USER 
pc = 0х00000008 
lr = 0х00008002 
rÜ = 0x12 





ARM 嵌入 式 系统 开发 








本 章 主 要 介绍 了 Thumb 指令 集 。 所 有 的 Thumb 指令 长 度 都 是 16 位 的 ,Thumb 代码 
可 以 提供 比 ARM 代码 高 大 约 30 色 的 代码 密度 ,大 多 数 Thumb 代码 都 是 由 C 或 者 十 十 
这 样 的 高 级 语言 编译 而 成 的 。 

ATPCS 定义 了 ARM A Thumb 代码 如 何 相互 调用 , 称 为 4RM-Thumb 25 E, 3E W [E 
用 分 支 切 换 指 令 BX 和 带 链接 的 分 支 切换 指 耸 BLX 来 改变 状态 ,并 跳 转 到 特定 的 例 程 。 

在 Thumb 指令 集中 ,只 有 分 支 指令 可 以 条 件 执行 , 桶 形 移 位 操作 (ASR,LSL,LSR 及 
ROR) 是 单独 的 指令 ， 

多 寄存 器 load-store 82 Ho iE EE ПА) 寻 址 方式 ，Thumb 指令 集 包 括 POP 和 
PUSH 指令 ,用 以 进行 堆栈 操作 ,这 些 指令 只 支持 请 厦 式 游 砍 类 ， 

Thumb 指令 不 可 以 访问 协 处 理 器 ,cpsr 和 spsr. 
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本 章 将 帮助 读者 在 ARM 处 理 器 上 编写 高 效 的 C 代码 。 我 们 将 通过 许多 小 的 例 程 来 说 
明 编译 器 如 何 把 C 代码 转换 成 ARM 汇编 代码 。 当 读者 了 解 这 种 转换 后 ,就 可 以 区 分 出 要 
行 速度 快 和 慢 的 蕊 代码, 这些 例 子 都 是 基于 普通 庄 言 的 ,但 这 些 技术 也 同样 适用 于 
C 十 十 语言 。 . . 

本 章 首 先 介绍 C 编译 器 及 其 优化 ,帮助 读者 理解 C 编译 器 在 优化 代码 时 所 碰 到 的 一 些 
HE. FARENE ,将 有 助 于 编写 出 在 提高 执行 速度 和 减 小 代码 尺寸 方面 更 高 效 的 上 W 
代码 。 后面 的 小 节 是 按 主题 来 组 织 的 ， 

5.2 和 5.3 节 以 一 个 数据 包 校 验 和 的 简单 程序 为 例 ,分 析 、 说 明了 如 何 优 化 一 个 基本 的 
СЯ. 5.4 和 5,5 节 介 绍 了 如 何 优化 一 个 完整 的 C 巴 数 体 ,包括 在 一 个 函数 内 编译 器 如 
何 分 配 寄存 器 ,如 何 被 少 函数 调用 时 的 开销 ， 

5. 67-5. 9 节 分 析 了 有 关 存 储 器 操作 的 问题 ,包括 指针 操作 .数据 打包 和 高 效 的 存 铺 青 
访问 。5, 10~5, 12 THET ARM 指令 通常 不 直接 支持 的 一 些 基 本 操作 ,也 可 以 使 用 内 联 
函数 和 内 藤 汇 编 来 增加 自己 的 基本 操作 , 

最 后 总 结 了 把 C 代码 从 其 它 的 体系 结构 移植 到 ARM 结构 时 会 碰 到 的 一 些 问 题 。 


5.1 C 编译 器 及 其 优化 概述 
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本 章 假 定 读者 熟悉 C 语言 ,也 有 一 些 汇 编 语言 编程 方面 的 知识 ,后 者 虽然 不 是 必需 
的 ,但 是 对 于 理 肖 后 面 例子 编译 后 的 汇编 输出 结果 会 有 帮助 。ARM 汇编 语法 的 详细 内 容 
可 参见 第 3 章 或 附录 А, 
众所周知 ,优化 代码 需要 花费 时 间 ,而 且 会 降低 源 代码 的 可 读 性 所 以 通常 只 对 经 党 被 
调用 县 对 性 能 影响 较 大 的 函数 进行 优化 。 为 了 找到 这 些 函 数 , 椎 荐 使 用 大 多 数 ARM 编译 
和 调试 器 都 带 的 性 能 分 析 工 具 。 另 外 ,用 源 代码 注释 来 评注 那些 不 容易 理解 的 优化 代码 ,可 
以 提高 代码 的 可 维护 性 ， 
C 编译 器 必须 逐 字 逐 名 地 把 С 程序 转换 成 汇编 程序 ,这 样 编译 器 就 不 会 涯 掉 所 有 可 能 
的 输入 。 实 际 上 ,许多 输入 组 合 是 不 可 能 的 或 不 会 出 现 的 。 首 先 来 看 一 个 例子 ,函数 mem- 
cir() 用 来 清除 从 地 址 data 开始 的 赤字 节 的 存储 单元 内 容 。 从 这 个 例子 中 可 以 看 到 编译 器 
会 碰 到 的 问题 ， 
void nezclr(char * data, int N) 
1 
for ( ;N>0 ;N — ) 
1 
ж data = 0; 
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data ++, 
} 
} | 
首先 ,编译 器 无 论 志高 级 ,也 不 可 能 知道 N 的 输入 值 是 否 可 以 是 0， 因 此 ,在 第 一 个 循 
环 开 始 之 前 ,编译 器 需要 对 这 个 问题 进行 明确 的 检查 。 

其 次 ,编译 器 也 不 知道 数组 指针 data 是 否 是 4 字 节 边界 对 齐 的 。 如 果 是 4 字 节 对 齐 
的 ,那么 编译 器 就 可 以 使 用 int 而 不 是 char 类 型 的 指针 ,这 样 一 次 就 可 以 清除 4 字 节 的 存储 
单元 。 而且, 编译 器 也 不知 道 N 是 否 是 4 的 整数 倍 , 如 果 N 是 4 的 整数 倍 ? 那 么 编译 器 可 以 
重复 循环 体 中 的 内 容 4 次 或 者 利用 int 类 型 的 指针 一 次 存储 4 字 节 。 

然而 ,编译 器 必须 是 保守 的 ,只 能 假定 N 的 所 有 可 能 的 值 和 data 所 有 可 能 的 边界 值 。 
这 些 问题 将 在 5. 3 节 中 详细 讨论 。 

总 之 ,要 编写 高 效 的 蕊 代码, 必须 了 解 哪些 地 方 C 编译 器 是 保守 的 ,编译 器 涉及 到 的 处 
理 器 结构 的 限制 ,以 及 一 些 特殊 的 CC 编译 器 限制 。 

本 章 大 部 分 内 容 都 围绕 着 土 述 前 两 点 ,并 适用 于 所 有 的 ARM C 编译 器 。 第 3 点 就 要 
依赖 于 编译 需 供 应 商 和 编译 器 的 修订 版 本 了 ,读者 须 参 考 编 译 器 的 有 关 文 档 ,或 者 亲自 对 编 
译 器 做 各 种 测试 。 

为 了 保证 例子 的 一 致 性 ,已 经 用 下 面 的 编译 器 测试 过 所 有 程序 : 

Ф ARM Developer Suite version 1, 1( ADS 1. 1) armee 可 直接 从 ARM 购买 这 个 

版 本 或 后 续 版 本 的 使 用 许可 。 
6 Arm-elf-gce version 2.95.2 E GNU C 编译 器 的 ARM 版 本 gec, 是 免费 使 用 的 。 


在 本 书 中 ,使 用 ADS1. 1 下 的 armee 来 生成 例子 中 的 汇编 输出 结果 。 下 面 的 脚本 显示 
ТЖ C ЖЇР test. c 使 用 armec。 可 以 使 用 这 种 方 靶 来 重新 生成 程序 的 缩 译 结果 。 


atucc – Ütime- c- o test.o test.c 
fromelf- text/c test.o 7 test. txt 


armee 默认 是 全 部 优化 功能 有 效 (- 02 命令 行 选 项 ) 。- 0time 选项 表示 执行 速度 优化 高 
于 代码 空间 的 优化 ,这 主要 是 影响 编译 器 针对 for 和 while 循环 的 处 理 。 如 果 使 用 gcc 编译 
澳 , 那 么 下 面 的 脚本 可 以 生成 类 似 的 汇编 输出 

arn- elf ~ gcc —02- fomit- frame - pointer ~ c — a test. o test. с 

arm- elf ~ objdump - d test. о >> test. txt 


GNU 网 译 器 在 默认 状态 下 所 有 优化 都 是 关 掉 的 ，- fomit ~ frame ~ pointer 选项 阻止 


GNU 编译 喻 保留 结构 指针 寄存 器 。 结 构 指 针 可 以 帮助 调试 窗口 显示 存储 在 堆栈 的 局 部 变 
BE. 但 是 ,如 果 保 留 ,那么 效率 将 会 降低 ,所 以 对 性 能 有 要 求 的 代码 就 不 要 使 用 结构 指针 。 
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5.2 基本 的 C 数据 类 型 


首先 来 研究 一 下 АКМ 编译 器 如 何 处 理 基 本 的 数据 类 型 ,将 会 发 现 其 中 一 些 数据 类 
型 用 作 局 部 变量 时 ,执行 效率 要 比 其 它 类 型 的 高 。 同 时 ,在 一 定 的 寻 址 模式 下 ,装载 / 存 铺 不 
同类 型 的 数据 ,效率 是 不 一 样 的 。 

ARM 处 理 器 内 部 是 32 位 寄存 器 和 32 位 的 数据 处 理 操作 。 其 体系 结构 是 RISC load/ 
store 结构 。 换 向 话说 ,数据 在 使 用 前 必须 先 将 其 从 内 存 装载 到 内 部 寄存 器 ,任何 算术 或 者 
逻辑 指令 都 不 能 直接 在 存 情 器 里 进行 数据 操作 ， | 

早期 版 本 的 ARM 结构 (ARMv1~v3) 为 装载 和 存储 无 符 导 8 位 和 无 符号 /有 符号 32 

”位 数据 提供 了 硬件 支持 。 这 些 体 系 结构 都 是 用 于 比 ARM7TDMI 更 早 的 处 理 器 。 表 5. 1 指 

出 了 ARM 体系 结构 支持 的 load/store WS., 


#5.1 ARM 体系 结构 的 load 和 store 指令 
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体系 结构 B + Bore o iik 

Pre ARMv4 LDRB КЕШЕ ТҮ 8 {+ 
STRB 存储 一 个 有 /无 符号 的 8 位 数据 
LDR 装载 一 个 有 /无 符号 的 32 位 数据 

96 STR 存 情 一 个 有 /无 符号 的 32 位 数据 

ARMy4 LDRSB 装载 一 个 有 符号 的 8 KE 
LDRH 装载 一 个 无 符号 的 16 位 数据 
LDRSH 装载 一 个 有 符号 的 16 ШЕШ 
5ТЕН 存 信 一 个 有 7 无 符号 的 16 位 数据 

АВМ»5. LDRD 装 末 一 个 有 /7 无 符号 的 64 位 数据 
STRD 存 铺 一 个 有 7 无 符号 的 64 位 数据 





TER 5. 1 中 ,8 位 或 者 16 位 数据 在 装载 /存储 ARM 寄存 器 之 前 , 先 要 扩展 成 32 位 。 无 
符号 数 把 0 作为 扩展 位 ,有 符号 数 则 按照 符号 位 扩展 。 这 就 意味 着 装载 int 类 型 (32 位 ) 的 
数据 无 须 花费 多 余 的 指令 时 间 来 进行 位 扩展 。 同 样 在 存储 时 ,8 位 或 者 16 位 的 数据 必须 放 
BUSH AID AK 8 位 或 低 16 位 。 而 一 个 mt 或 更 小 类 型 的 传送 ,存储 时 就 不 需要 花费 额外 的 
措 令 时 间 了 。 

ARMvA 及 其 以 后 的 体系 结构 可 以 使 用 新 增 的 指令 来 直接 装载 和 存储 一 个 带 符号 8 位 
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和 16 位 数据 。 由 于 这 些 指令 都 是 后 来 增加 的 ,它们 并 不 支持 早 于 ARMv4 指令 集 的 许多 寻 
址 方式 (不 同 寻 址 方式 详 见 3.3 节 )。 在 后 面 5. 2. 1 小 节 中 的 例子 checksum_v3 将 会 看 到 这 
种 影响 。 

ARMv5 增加 了 支持 64 位 数据 的 load 和 store 指令 ,ARM9E 及 其 以 后 的 核 都 支持 这 
些 指 令 。 

E ARMv4 RE ARM 处 理 器 并 不 能 很 好 地 处 理 有 符号 的 8 位 或 者 任何 16 位 数据 ， 
因此 ,在 ARMC 编译 器 中 定义 的 char 类 型 是 8 位 无 符号 的 ,而 不 像 其 它 编译 器 默认 是 8 位 
有 符号 的 。 

ER 5.2 中 ,说 明了 armee 和 ge 编译 器 对 ARM 文件 所 使 用 的 数据 类 型 映射 。 当 把 
代码 从 其 它 体系 结构 的 处 理 器 移植 到 ARM 处 理 器 时 ,对 于 char 数据 类 型 要 特别 注意 , 因 
为 它 可 能 会 引 人 一 些 问题 。 比 如 经 常 使 用 一 个 char 类 型 的 数据 i 作为 循环 计数 器 ,循环 的 
持续 条 件 是 620, НЕГ ARM 编译 器 来 说 是 一 个 无 符号 的 数 , 这 个 循环 将 永远 不 会 结 
东 。 幸 运 的 是 ,armcc 在 这 种 情况 下 会 给 出 一 个 警告 , unsigned comparison with 0。 另 外 ， 
编译 器 也 提供 了 补充 选项 ,可 以 使 char 类 型 变 成 带 符号 的 。 例 如 ,在 gcc 中 命令 行 选 项 - 
fsigned - char 就 可 以 将 char 转换 成 有 符号 类 型 。 在 arme 中 命令 行 选项 - zc 也 有 同样 的 效 
Ж, 

与 本 书 的 其 它 部 分 一 样 , 这 里 都 是 假定 使 用 ARM 体系 结构 及 其 以 上 的 处 理 器 ,包括 
ARM7TDMI 及 其 以 后 所 有 的 处 理 器 。 

*5.2 C 编译 器 数据 类 型 喘 射 
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CHEAN FELE EI 

char АЕ 8 ШЕЕ 

short 有 符号 16 位 半 字 数据 

int 有 符号 32 位 字数 据 

long 有 符号 32 位 字数 据 

long long 有 符号 64 位 双 字 数据 
5.2.1 局 部 变量 类 型 


基于 ARMv4 体系 结构 的 处 理 器 能 高 效 地 装载 和 存储 8 位 .16 位 和 32 位 数据 。 但 是 ， 
大 多 数 的 ARM 数据 处 理 操作 都 是 32 位 的 。 基 于 这 个 原因 ,局 部 变量 应 足 可 能 使 用 32 位 
的 数据 类 型 int 或 者 iong。 即 使 在 处 理 8 位 或 者 16 位 的 数值 时 ,也 应 避免 使 用 char 和 
short 数据 类 型 作为 局 部 变量 。 惟 一 的 例外 情况 是 ,需要 使 用 char 或 者 short ЖЖ ЖЕН 
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P] 出 归 零 特性 时 ,如 模 运 算 255 十 1=0, 就 要 使 用 char 类 型 。 
< 为 了 说 明 局 部 变量 类 型 的 影响 , 先 来 看 一 个 简单 的 例子 : checksum 0 РА Ў А) RE 
L 是 计算 一 个 数据 包 内 的 数据 总 和 。 这 个 例子 具有 很 普遍 的 意 头 ,因为 大 多 数 的 通信 协议 (例如 
Q|  TCP/ 了 p) 都 有 校 验 和 或 者 循环 宛 余 校 验 (CRC) 程 序 来 检查 一 个 数据 包 里 是 否 有 错误 。 
3 下 面 的 程序 用 来 计算 一 个 包含 64 个 字 的 数据 包 的 校 验 和 。 其 说 明了 为 什么 对 局 部 变 
Š 量 应 该 吉 免 使 用 char 类 型 。 
2 int checksum vl (int # data) 
1 

9 Char i; 
Gü) int sum = 04 
c 
б 2 
Q for { i= 0 ;1⁄264 iH) 

{ 

sum += data[ i], 
) 
return sum; 


} 


初 看 一 下 ,似乎 声明 ;为 char 类 型 是 没有 什么 问题 的 ,其 至 可 能 会 觉得 一 个 char 类 型 
的 数据 比 int 类 型 的 数据 占用 更 小 的 寄存 器 空间 或 者 更 小 的 ARM 堆栈 空间 ,其实 对 
ARM 来 说 ,这 两 个 设想 都 是 错误 的 。 所 有 的 ARM 寄存 器 都 是 32 位 的 ,所 有 的 堆栈 人 口 也 
至 少 是 32 位 的 。 而 且 , 为 了 正确 执行 i 十 十 ,编译 器 必须 解决 ;一 255 时 的 情况 ,因为 对 于 
char 数据 类 型 的 i 来 说 ,255 加 1 产生 的 结果 是 0。 

这 个 函数 经 过 编译 后 的 输出 结果 如 下 ,这 里 增加 了 标 导 和 注释 ,以 使 汇编 语言 更 加 清晰 。 
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checksum yl 
MOV rž, rū {тд = data 
MOV rÜ, HO ‚вш = 0 
MOV ri,#0 ;is0 
Checksum vl loop 
ШЕ — r3,[r2,r1,LSL #2] ` 113 = data [i] 
Ann г1,гі, #1 1ї1=і + 1 
AND rl,rl,jdfüxff і = (char) rl 
CHP rl,j0x40 compare 1,64 
ADD rD,r3,rÜ #9um += r3 
ВСС Checksum vl loop sif (i< 64 ) loop 


MOV pe,rid ;feturn sum 
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现在 把 上 面 的 程序 段 与 把 i 声明 为 unsigned int 类 型 时 比较 一 下 : 


checksum v2 
MOV r2,rÜ ;r27 data 
МУ 0.80 {Биш = 0 
MOV rl, # O {1=й 
checksum v2 loop 
LR r3,[r2,rl,LSL #2] зга = data [i] 
ADD rl,r1,#1 irl ++ 
CHP rl, # 0x40 compare 1,64 
ADD ro,r3,r0 psum += r3 
ВСС checksum v2 loop pif ( i <64) goto loop 
MOV рс,г14 treturn sum 


第 一 种 情况 ,在 ;和 64 比较 前 ,编译 器 增加 了 额外 的 AND 指令 来 保证 i 的 范围 为 
0 一 255。 在 第 二 种 情况 下 ,这 条 指令 就 可 以 省 略 了 。 
接 下 来 ,假设 数据 包 中 的 数据 是 16 位 的 ,需要 计算 一 个 16 位 的 校 验 和 功能 。 试 写 出 
下 面 的 C 代码 : 
short checksum v3 ( short * data) 
i 


unsigned int i, 


short sum = 0; 


for ( i= 0;12 64 itt) 
[ 
sum = (short) ( sum + data [i] ) , 


j 


return sum; 


j 
”读者 可 能 会 疑惑 ,为 什么 循环 体内 的 代码 不 是 sum += data Li]; ЯК Y armee # 
译 器 中 隆 式 数 据 宽 度 窑 化 警告 (impjisit narrowing east warning) 选 项 一 W 十 n, 那 么 编译 上 
述 代 码 时 就 会 出 现 一 个 警告 。 表 达 式 sum 十 data [让 是 整数 类 型 的 ,所 以 只 能 进行 数据 宽 
度 窗 化 ( 隐 式 或 者 显 式 ), 再 赋 给 一 个 short 类 型 的 数据 。 见 下 面 的 汇编 输出 结果 ,注意 编译 
器 必须 增加 指令 来 实现 数据 宽度 窗 化 ， 


checksum v3 
MOV rż, rū rra = data 
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> му го, #0 ;sum = Ü 
| = MOV г1, #0 :1= 0 
© checksum v3 loop 
| 08 ADD — r3,r2,ri,LSL #1 173 = &data [i] 
3 LDRH r3,[r3, #0] :r3= data [i] 
| 口 ADD rl,ri,Hi ;l ++ 
Q CE — r1, 0x40 ¿Compare i ,64 
Ф ADD rÜ,r3,r0 ;TD = sum + r3 
| 9 MOV — r0ü,r0,LSL #16 
2 MOV rü,rü,ASR #16 реш = ( short > тб 
| 9, ВСС checksum v2 loop pif ( i <64) goto loop 
Š MOV — po,rld ;return sun 
| 0 


这 个 竺 环 要 比 前 面 的 例子 checksum. v2 的 循环 多 了 3 条 指令 ! 对 于 额外 的 指令 有 以 
ТИЙЕШ: 
e LDRH 指令 不 能 像 checksum, v2 中 的 LDR 指令 一 样 支持 移 位 地 址 偏 移 (shifted 
address offset), 因此 在 循环 体 中 第 一 条 ADD 指令 用 来 计算 数组 下 标 i 的 地 址 。 
LDRH 指令 只 能 从 一 个 没有 但 移 量 的 地 址 装 人 数据 .由 于 LDRH 指令 是 ARM 指 
令 集中 后 来 增加 的 ,所 以 相对 于 LDR 指令 , 它 的 寻 址 方式 较 少 ( 见 表 5. D. 
€ 使 total + array [i ]HE A short 类 型 需要 2 条 MOV 指令 ,编译 器 先 诺 移 16 位 , 然 
后 右 移 16 位 ,以 实现 一 个 16 位 符号 扩展 。 右 移 是 符号 位 扩展 移 位 , 它 复 制 了 符号 
位 来 填充 高 16 位 ， 
ERAR OTHE, TER int 类 型 的 变量 来 计算 ERRERA, 只 是 在 函数 退出 时 ， 
将 和 值 转换 为 short 类 型 。 
然而 ,第 一 个 河 题 是 新 出 现 的 。 要 解决 这 个 问题 ,可 以 通过 递 半 指针 data; 而 不 是 用 数 
组 datatij] 的 下 标 来 访问 数组 。 这 是 忽视 数组 类 型 长 度 或 元 素 尺 寸 的 有 效 方法 。ARM 所 有 
的 load 和 store 指令 都 支持 后 增 量 (postincrement) 寻 址 方式 ， 


[55.1] checksum v4 代码 解决 了 本 节 讨 论 的 所 有 问题 。 局 部 变量 使 用 了 int 类 型 ， 
避免 了 不 必要 的 转换 ,并 且 使 用 了 指针 data 代替 原来 使 用 数组 的 下 标 。 
Short checksum v4 (short ж data ) | 
{ 
unsigned int 1; 
int sun- 0 , 


100 


for ( i=0 ;i < 64 ;i++) 
í 


5 ШЕСЕ 


sum += s= { data +t ) | 
) 
return (short) sum; 
) 
操作 * (data 十 十 ) 只 种 一 条 ARM 指令 装载 数据 并 增加 指针 data 的 值 。 当 然 ,也 可 
雇 根 据 务 生 的 喜爱 ,写成 sum += dataydata 十 十 ;或 者 x tata 十 十 。 编 译 器 会 产生 下 面 的 
输出 结果 。 相 对 于 checksum_v3, 在 内 部 循环 体 中 3 条 指令 被 项 除了 ,这 样 对 于 每 个 循环 来 
说 节约 了 3 В. 
сһескдош уф 
MOV т2, $0 звод = 0 
МО гі, #0 :і= 0 
checksum v4, ioop 
LDRSH r3, [r0], 2 ;r33 ж (data ++) 
Apo г1,г1,Ң1 ‚1 ++ 
CHP rl, ft 0x40 ;compare 1,64 
Anp rá rj rů {8ш += r3 
checksum và loop pif ( sum « 64 ) goto loop 
MOV rü.r2,LSL #16 
MOV 10,10, ASR #16 {г0 = (short ) эш 
MOV porla :Teturn го 


在 函数 返回 时 ,编译 髓 仍然 需要 把 指令 数据 转换 成 16 位 的 。 如 果 返 回 值 是 inc 类 型 ， 
那么 这 一 步 就 不 需要 了 。5. 2.2 小 节 将 进一步 讨论 返回 信和 是 inc 类 型 的 情况 。 


5.2.2 ШЕФИ 


# 5. 2,1 小节 中 已 经 看 到 ,把 局 部 变量 从 char 或 者 short ЖЕ inc 类 型 ,可 以 改 
状 性 能 并 减 小 代码 尺寸 。 其 实 , 这 种 转换 对 比 数 参数 也 有 着 同样 的 效果 ， 看 下 面 的 例子 ,将 
2 个 16 位 的 值 相 加 ,其 中 第 2 TH OE ,然后 返回 一 个 16 位 的 和 : | 

short add vi ( short a,short b ) 

{ 


returne + (b >> 1); 


} 


ТЕСТТЕГИ 


好 的 例子 。 SA a, b 和 返回 值 都 存放 在 32 位 的 ARM 寄存 器 中 。 NW АПКЕ E 
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这 些 32 位 数值 在 short 类 型 的 范围 (一 32 768 一 十 32 767) Z B]? 或 者 编译 器 是 否 应 该 
ЖИА К 16 位 数据 进行 符号 位 扩展 ,充填 32 位 寄存 器 ,强制 把 数 侦 限制 在 上 述 范围 之 加 
呢 ? 编译 器 必须 对 函数 调用 者 和 被 调用 者 作出 一 致 的 决策 。 不 是 调用 者 ,就 是 被 调用 者 , 必 
须 把 数据 转换 为 short 类 型 ， 

如 果 参 数 可 以 不 缩小 到 所 定义 的 数据 类 型 范围 ,那么 称 这 种 函数 参数 传递 是 宽 的 
(wide) 反之, 则 称 为 府 的 (narrow)。 观 察 add vl 的 汇编 输出 结果 ,就 可 以 知道 编译 器 所 采 
用 的 是 哪 种 形式 。 如 果 编 译 器 传递 参数 是 宽 的 ,那么 被 调用 者 就 必须 把 参数 缩小 到 正确 的 
范围 :如 果 编 诺 喘 传递 参数 是 雁 的 ,那么 调用 者 就 必须 缩小 参数 范围 。 如 果 编 译 回 返回 值 是 
宽 的 ,那么 调用 者 就 必须 把 返回 值 缩小 到 正确 的 范围 ;如 果 编 译 器 返回 值 是 罕 的 ,那么 被 调 
用 者 就 必须 在 返回 前 缩小 返回 慎 的 范围 。 


对 于 ADS 的 armee 来 说 ,函数 参数 传递 和 返回 值 都 是 窄 的 。 换 句 话说 ,调用 者 要 处 理 调 用 
参数 ,而 被 调用 者 要 处 理 返 回 值 。 编 译 器 采用 函数 的 ANSI 原型 来 决定 函数 参数 的 数据 类 型 。 

函数 add vl 在 armee 下 的 输出 结果 显示 ,编译 器 把 返回 值 的 类 型 转换 为 short, 而 没有 
处 理 输 入 参数 。 它 认为 调用 者 已 经 保证 在 10 38 rl 中 的 32 位 的 数值 是 在 short 类 型 的 范围 
之 内 。 这 就 说 明和 参数 传递 和 返回 值 都 是 窄 的 。 
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add x1 
ADD ї0,г0,г1,АЅЕ #1 * irÜü-(int)a + ((int) b »» 1) 
MOV rü.r0,LSL #16 
102 MOV YÜ,r0,A5R #16 {Т0 = ( short ) rd 
MOV pe,ri4 jreturn гй 


gcc 编译 器 更 为 谨慎 ,对 参数 值 的 范围 不 作 任何 假设 ， 这 个 版 本 的 编译 器 ,在 调用 者 和 
被 调用 者 中 都 将 输 人 参数 缩小 到 shore 类 型 的 数据 范围 ,同时 也 都 将 返回 值 转换 为 short 类 
型 。 下 面 是 add v1 由 ge 编译 后 的 代码 ， 


add vi gcc 
MOV rÜ,r0,LSL #16 
MOV rl,rl,LSL #16 
MOV rl, rl,ASR #17 irl= ( int ) b >> 1 
ADD rl,rl,rO,ASR #16 ті += ( int )a 
MOV rl,rl,LSL #16 
MOV гб, rl,ASR #16 zÜ = (short) r1 
MOV peir ;return ro 


尽管 宽 和 窄 的 函数 调用 规则 各 有 其 优点 ,但 char 或 者 short 类 型 的 函数 参数 和 返回 值 
帮会 产生 额外 的 开销 ,导致 性 能 的 下 降 , 并 增加 了 代码 尺寸 。 所 以 ,即使 是 传输 一 个 8 位 的 
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数据 , 沙 数 参数 和 返回 值 使 用 int 类 型 也 会 更 有 效 ， 


5.2.3 有 符号 数 与 无 符号 数 


前 面 说 明了 对 于 局 部 变量 和 函数 参数 ,使 用 int 类 型 比 使 用 char 或 者 shot 类 型 更 好 。 本 
小 节 将 对 有 符号 整数 (signed int) 和 无 符号 整数 (unsigned int ) 类 型 的 执行 效率 进行 分 析 比 较 。 

如 果 程 序 中 只 有 加 法 ,减法 及 乘法 ,那么 有 符号 和 无 符号 数 的 执行 效率 没有 任何 差别 。 
但 是 ,如 果 有 了 除法 ,就 不 一 样 了 。 看 下 面 一 个 关于 求 2 个 整数 平均 值 的 简单 例子 ; 


int average vl ( int a,int b ) 


| 


Виџшиюбоа D шәюшя gs 


return {atb} /2, 
! 
编译 后 ， 
average vl 
ADD г0.г0,г1 ‚зго =а+ьЬ 
ADD r0,r0,r0,LSR #31 pif (r0<0) rO + + 
MOV rÜ,rÜ,ASR #1 : jr) = IO >s 1 
MOV рс,г14 return rü 
注意 : 在 汇编 代码 中 ,如 果 和 ({r0) 是 负数 , 则 在 右 物 前 编 详 器 先 对 由 进 行 了 加 184. ЖОЙ. 
Ade x/2* AA. 
{(х<0)?((х+1) s> 1). (x >> 1 5 


这 一 步 是 必须 做 的 ,因为 z 是 有 符号 数 。 在 ARM C 中 ,如 果 z 是 负数 ,那么 除 2 操作 
就 不 是 一 个 右 移 操作 。 例 如 ;一 3 >> 1== 一 2, 然 而 一 3/2 = 一 1。 对 于 一 个 负 整 数 ,除法 的 
结果 是 向 0 的 方向 伟人 ,而 算术 右 移 的 结果 是 向 一 8 的 方向 伟人 。 
对 于 除法 来 说 ,使 用 无 符号 数 效 率 会 更 高 。 编 译 器 可 以 将 2 的 倍数 的 无 符号 除法 直接 
用 右 移 来 奉 代 。 对 于 一 般 的 除法 运算 ,C 库 文 件 中 的 除法 程序 对 于 无 符号 数 运算 执行 速度 
也 更 快 ， 关 于 避免 除法 运算 的 讨论 ,参见 5. 10 节 。 


HS E CHIGSGSSIHS 
e 对 于 存放 在 寄存 器 中 的 局 部 变量 ,除了 8 位 或 16 位 的 算术 模 运 算 外 ,尽量 不 要 使 用 
char 和 short 类 型 ,而 要 使 用 有 符号 或 者 无 符号 int 类 型 。 除 法 运算 时 使 用 无 符号 
数 执 行 速度 更 快 。 | 
e 对 于 存放 在 主 存 情 器 中 的 数组 和 全 局 变量 ,在 满足 数据 大 小 的 前 提 下 ,应 尽 可 能 使 用 
小 斥 寸 的 数据 类 型 ,这样 做 可 以 节省 存 情 空间 。ARMv4 体系 结构 可 以 有 效 地 装载 和 
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存储 所 有 宽度 的 数据 ,并 可 以 使 用 递增 数组 指针 来 有 效 地 访问 数组 。 对 于 short 类 型 
数组 ,要 避免 使 用 数组 基地 址 的 偏 移 重 ,因为 LDRH 指令 不 支持 偏 移 导 址 。 

e 通过 读 取 数组 或 者 全 局 变量 并 婚 给 不 同类 型 的 局 部 变量 时 ,或 者 把 局 部 变量 写 人 不 
同类 型 的 数组 或 者 全 局 变量 时 ,要 进行 显 式 (explicit) 数 据 类 型 转换 。 这 种 转换 使 编 
译 器 可 以 明确 快速 地 处 理 , 把 存 傅 器 中 数据 宽度 比较 窗 的 数据 类 型 扩 民 ,并 赋 给 寄 
存 绒 中 较 宽 的 类 型 。 通 过 打开 编译 器 的 隐 式 数据 宽度 罕 化 警告 (implicit narrowing 
cast warning) 选 项 ,下 以 观察 到 隐 式 数据 类 型 转 搞 。 

e 由 于 隐 式 或 者 显 式 的 数据 类 型 转换 通常 会 有 额外 的 指令 周期 开销 ,所 以 在 表达 式 中 
应 尽量 避免 使 用 。load 和 store 指令 一 般 不 会 产生 额外 的 转换 开销 ,因为 load 和 
store 指令 是 自动 完成 数据 类 型 转换 的 。 

e 对 于 畏 数 参数 和 返回 值 应 尽量 避免 使 用 char 和 short 类 型 。 即 使 参数 范围 比较 小 ， 
也 应 该 使 用 inc 类 型 ,以 防止 编译 器 做 不 必要 的 类 型 转换 ， 


5.3 С 循环 结构 
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ПЕВАТИ S Riti НАВ. ЖЕЕ РЕЛЕ АКМ 上 处 理 for 和 
while 循环 最 有 效 的 方法 。 ASSESRORUGRUR A METE, 然后 转移 到 可 变 次 数 的 ， 
最 后 将 分 析 循环 体 展开 。 


5.3.1 固定 次 数 的 循环 
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什么 是 ARM 上 编写 for 循环 效率 最 高 的 方法 ? 再 回 到 前 面 的 checksum 例子 ,研究 一 
下 循环 结构 。 

下 面 是 在 5. 2 节 中 讨论 的 64 个 字数 据 包 校 验 和 程序 的 最 后 版 本 ,说 明了 编译 器 如 何 使 
用 增 量 计数 1 РЖ TERR. 


int checksum v5 (int ж data) 
I 
unsigned int i; 


int sum = 0; 


for( i= 0 ;1<64 pitt) 
i 


sum += *(data tt); 
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) л 
rT 
return sum; - 
o 
Š 
编译 后 生成 ， s: 
O 
checksum v5 D 
Ж" 
MO — r2,r0 {т2 = data g 
MOV то, #0 {виш = 0 ü 
MO —rl.O ,i=0 3 
checksum v5 loop 3 
= 
LDR r3.[r2H] #4 r3 = x (data Ht) e 
ADD т1,г1,#1 ;i T+ 
СИР хі, #040 ;compare 1,64 
AUD rÜ, r3,r0 psum += r3 
ВСС checksum v5 loop pif ( i x64) goto loop 
НОТ ре,г14 retum sum 


这 里 用 了 3 条 指令 来 实现 for 循环 结构 ， 

e 一 条 ADD 指令 ,增加 :的 值 ， 

e 一 条 CMP 比较 指令 ,检查 i 是 否 小 于 04 

e 一 条 BCC 条 件 分 支 指令 ,如 果 i<64, 则 继续 循环 。 
这 种 循环 执行 效率 不 高 .在 ARM 上 ,一 个 循环 其 实 只 要 23d EET. 

e 一 条 减法 指令 ,进行 循环 减 计 数 , 同 时 设置 结果 的 条 件 标 志 ; 

e 一 条 条 件 分 支 指令 。 

这 里 的 关键 是 ,循环 的 终止 条 忻 应 为 减 计数 到 零 Ccount down to гето), ЖЖ ЖОЙ 
加 到 某 个 特定 的 限制 值 。 由 于 减 计数 结果 已 存 赃 在 条 忻 标 志 里 ,与 零 比 较 的 指令 就 可 以 省 
略 了 。 由 于 不 再 使 用 ; 作为 数组 的 下 标 索 引 , 采 用 减 计数 就 没有 任何 问题 。 

[55.2] 表明 采用 减 计数 循环 (decrementing loop ) 要 比 增 计数 循环 (incrementing 
loop 2 fif, | 

int checksum v6 (int * data) 


{ 


unsigned int i; 


i05 


int sum = 0; 


for (1=64;1! -0,i-—) 


ARM 嵌入 式 系统 开发 
| 





) 


return sum; 


| 
编译 后 输出 ， 


checksum, vb 
MOV r2,rÜ 
MOV ro #0 
MOV rl, # 0x40 
checksum v& loop 
IR  r3,[r2], #4 
5085 rl,rl, #1 
ADD rü,r3,r0 


әрп siedojeAəq uelsAs WYY 


MOV ре,гі4 


实现 循环 : 
SUBS rl,ri, #1 
BGT loop 


实际 上 ,编译 器 生成 的 是 下 面 的 代码 


SUB г1,г1, 1 
СМР rl, #0 
BGT loop 


sum += ж (data tt); 


ВНЕ checksum уб loop 


{Т2 = data 
үш = 0 


;1= 64 


1137 = (data ++ ) 
;i-- and set flags 
;sum += ri 

sif ( i {= 0) goto loop 


¡retum sud 


这 里 ,SUBS 和 BNE 指令 实现 了 循环 。 这 个 校 验 和 例 程 中 ,每 次 循环 只 用 了 4 条 指令 ， 
比 checksum_v1 中 的 6 条 和 checksum_v3 中 的 8 条 减少 了 许多 

对 无 符号 的 循环 计数 值 了 来 说 ,循环 继续 的 条 件 既 可 以 是 让- 0, 也 可 以 是 这 20。 由于: 
不 可 能 是 负数 ,所 以 这 两 个 条 件 是 等 价 的 。 而 对 一 个 有 符号 的 循环 计数 值 来 说 ,用 条 件 10 
来 作为 继续 循环 的 条 件 是 一 件 冒 险 的 事情 。 读 者 可 能 会 期 望 编译 器 生成 下 面 的 2 条 指令 来 


icompare iwith 1, L= i= 1 


pif ( 10 121 ) goto loop 


ji 一 
compare i with 0, 
pif { 170 ) goto loop 


不 是 编译 器 的 无 能 , 当 i= —0x80000000 时 , 它 必 须 小 心 , 因 为 上 面 2 段 汇编 代码 在 这 
种 情况 下 会 产生 不 同 的 结果 。 对 于 第 1 段 汇 编 代码 ,SUBS 指令 将 i 与 1 比较 ,然后 减 1， 
出 于 一 0x80000000<<1 ,循环 终止 。 而 对 于 第 2 段 汇编 代码 , 先 将 i 减 1, 然 后 与 0 Ш, Ж 
运算 意味 着 现在 i 的 大 小 是 十 0x?1ffffff, 这 样 御 环 就 会 继续 下 夫 。 

当然 ,实际 上 i 很 少 会 是 一 0x80000000。 编 译 器 一 般 不 可 能 碰 到 这 种 情况 ,特别 是 当 短 











环 是 以 一 个 可 变 的 计数 值 开始 时 (参见 5. 3.2 小节 )。 
总 而 谊 之 ;无论 对 于 有 符号 还 是 无 符号 的 循环 计数 和 值 ,都 上 应 使 用 i 10 作为 循环 的 结束 
条 件 。 对 有 符 导数 i, 这 比 使 用 条 件 >>0 少 了 一 条 指令 。 


5.3.2 不 定 次 数 的 循环 


现在 假定 checksum 程序 要 处 理 任意 长 度 的 数据 包 , 这 样 就 须 传递 一 个 变量 N 作为 数据 包 的 


KE. ЈА 5. 3. 1 小节 的 经 验 可 知 ,可 使 用 减 计数 直至 N=0, 也 不 需要 额外 的 循环 计数 值 ;。 
例子 checksum, v? 显示 编译 只 如 何 处 理 不 定 次 数 N 的 循环 。 


int checksum v7 (int * data,unsigned int N) 
{ 


int sum = 0; 


for (NIS 0 48 — ) 
( 

sum + = «(data t* ); 
} 


return sum; 
} 
编译 后 生成 ， 
checksum v7 
MO — r2, 40 ; 2 = data 
CHE ri #0 icompare N,0 
BEQ checksum v" end ;1£ ( N22 0 ) goto end 
checksum v7 loop 
IR — r3,[r0], #4 {ї3= ж (data ++ ) 
SUBS rl,r1,11 下 一 and set flags 
ADD r2, r3,r2 рш += += rj 
BNE ^ checksum v7 loop sif (N 1 = 0) goto loop 
checksum v7 end 
MOV г0,т2 70) = sun 
MOV poris return rÜ 


注意 ; # йил ока ЕЖЕ МИЛЕ 9。 由 于 教 组 通常 不 会 为 空 , 所 以 一 般 订 说 答 查 是 不 
308p. РЕЗИ T LU) k H. do- while WREE for A& 3E X 33 di P Xp e dee REA, 


[55.3] on {И do- while EI AB for 循环 中 出 现 的 对 N 是 次 为 0 的 判断 。 
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P int chechsum v8 (int + data,unsigned int N) 
2 | 
ge int sum- 0; 
Ë 
3 do 
D i 
Ф sum += (data ++ ); 
5. ) while ( -—-N !'- 0); 
8 return sum; 
全 } 
О] aum. 
Q checksum_v8 
MOV — r2,1t0 ‚эш = 0 
Checksum v& ioop 
LDR — r3,[r0], #4 ;r3= ж (data ++) 
SUBS rl,r1,1H1 ;N— and set flags 
ADD r2, rJ,.r2 ;sum += r3 
BNE checksum v8 loop yif ( N !- 0) goto loop 
MOV rÜ, rz ;r0 = sum 
MOV pc.rl4 return rọ 
108 与 checksum. v? 编译 生成 的 代码 比较 ,可 发 现 减少 了 2 个 周期 。 
5.3.3 И 


在 5.3. 1 小 节 中 可 以 发 现 ,每 次 循环 需要 在 循环 体外 加 2 条 指令 :一 条 减法 指令 来 减少 
循环 计数 值 和 一 条 条 件 分 支 指令 。 通常 把 这 些 指令 称 为 循环 开销 (loop overhead), Æ 
ARM? 或 者 ARMS AE3838 E ,减法 指令 需要 1 个 周期 ,条 件 分 支 指令 需要 3 个 周期 ,这 样 每 
个 循环 就 需要 4 个 周期 的 开销 。 

可 通过 展开 (unrolling) 御 环 体 一 一 重复 短 环 主体 才 次 ,并 按 同 样 的 比例 减少 循环 次 数 ， 
来 降低 循环 开销 。 例 如 ,把 数据 包 校 验 和 程序 展开 4 次 。 


[55.4] 把 数据 包 校 验 和 程序 展开 X. 
假定 数据 包 中 的 数据 个 数 N 是 4 的 倍数 ， 


int checksum v9 (int x data,unsigned int N) 
Í 





5 ВМС 





int sum = 0; 


вш += ж (даа ++ ); 
Sum += x (data tt); 
sum += x (data ++); 
sum += ж (data ++); 
N -= 4; 

} while ( N!= 0); 


return sum; 
} 
编译 后 生成: 

checksum v9 
MOV г2, {0 :Sum = 0 

checksum v9 loop 
LUR r3,[r0], #4 (0 ar3- x (data ++) 
SUBS 2],гі, #4 ;N -= 4 and set flags 
ADD r2, 13,12 sum += r3 
LDR r3, [r0], #4 113 = ж (data ++ ) 
ADD r2, ri,r2 {5ш += r3 
LDR r3, [r0], #4 ;r3= ж (даба ++) 
ADD r2, r3.r2 узшш += r3 
LDR r3,[r0], #4 r3 = w (data ++ ) 
ADD I2, r3,r2 Sum += гЗ 
BNE checksum v9 loop rif ( N != 0) goto loop 
MOV rü,r2 1rÜ = sum 
MOV pe.rl4 returnu гб 


这 里 把 逢 环 开 销 从 AN 个 局 期 减少 到 4N/4==N 个 周期 。 在 ARM7TDMI 上 ,把 原来 一 
次 累加 需要 的 8 个 局 期 减少 到 20/4—5 个 周期 ,几乎 加 速 了 2 倍 1 对 于 ARM9TDML ,由 于 
它 有 更 快 的 load 指令 ,效果 会 更 好 。 


在 展开 一 个 循环 时 ,读者 一 定 会 问 到 2 个 问题 

e 到 底 应 该 展开 循环 几 次 ? 

® 如 果 循 环 的 次 数 不 是 循环 展开 数 的 倍数 该 怎么 办 ?例如 ,在 例 checksum v9 中 ,如 
果 NN 不 是 4 的 信 数 怎么 办 ? 
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首先 ,对 于 第 1 个 问题 ,只 有 当 循 环 展开 对 提高 应 用 程序 的 整体 性 能 非常 重要 时 , 才 进 
行 循环 展开 ;否则 得 益 不 大 反而 会 增加 代 究 尺寸 ,甚至 会 因为 替换 掉 了 cache 中 更 重要 的 代 . 
码 而 降低 了 总 体 性 能 。 

假定 循环 对 整个 程序 的 性 能 是 十 分 重要 的 ,比如 , 占 了 整个 程序 执行 的 3006, ИЕЛ 
ЖЕ 0,5 KB 的 代码 量 (128 条 指令 )。 这 祥 , 相 对 于 循环 主体 的 128 个 周期 ,循环 的 一 般 开销 最 
多 只 有 4 个 周期 , 占 了 3/128, 29 36 ,而 循环 占 整个 程序 的 30%。 这 样 ,循环 移 一 般 开 销 只 占 
了 整个 程序 执行 的 1%。 进 一 步 展开 代码 对 性 能 只 能 造成 微乎其微 的 好 处 , 却 对 cache 内 容 千 
成 了 很 大 的 影响 。 通 常 ,如 果 对 性 能 改善 小 于 15 ,那么 循环 就 不 值得 进一步 展开 了 。 

对 于 第 2 个 问题 ,应 设法 使 循环 的 次 数 是 循环 展开 数 的 倍数 。 如 果 难 以 实现 ,那么 就 要 
增加 额外 的 代码 来 处 理 数组 的 剩余 元 素 。 这 将 增加 少许 代码 量 , 但 可 以 保持 较 好 的 性 能 。 


[15.51 采用 + 次 展开 的 循环 ,可 对 任意 大 小 的 数据 包 进 行 校 验 和 计算 


int checksum vlÓ (int * data,unsigned int H) 
i 
unsigned int i; 





opine sJedojeA^eg WAAS Wl 


int sum = 0; 


for ( i=N/4 i! -0;i—) 
{ 
sun += ж (даба ++), 
sum += ж (даа ++ ); 
Sum += ж (data ++; 
sum += s (data +); 
} | 
for ( i=N83 уі 1=0 ;i—) 
{ 
sum += xríüdata--t), 
j 
return sum; 


第 2 个 for 循环 解决 了 当 N 不 是 4 的 售 数 时 的 数组 剩余 元 素 问题 
注意 ; N/4 和 МОЗ 都 可 能 是 零 , 所 以 就 不 能 使 用 do - while M 05 8 38. , 
A © NICHE D UIRÁE 


e ТРА I ЕРЕН ,这 样 编译 器 就 不 需要 分 配 一 个 十 存 器 来 保存 循环 终止 
值 ,而 且 与 0 比较 的 指令 也 可 以 省 略 ; 
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e 使 用 无 符 导 的 循环 计数 值 ,循环 继 续 的 条 件 为 ;0 而 不 是 i>0, 这 样 可 以 保证 循环 
开销 只 有 两 条 指令 ; 

е 如 果 事 先知 道 循环 体 至 少 会 执行 一 次 ,那么 使 用 do- while 循环 要 比 for 循环 好 ,这 
样 可 以 使 编译 器 省 去 检查 循环 计数 值 是 否 为 零 的 步骤 | 

e 展开 重要 的 循环 体 可 降低 循环 开销 ,但 不 要 过 度 展 开 , 如 果 循 环 的 开销 对 整个 程序 
来 伐 占 的 比例 很 小 ,那么 循环 展开 反而 会 增加 代码 量 并 降低 cache 的 性 能 : 

e 尽量 使 数组 的 大 小 是 4 或 8 的 倍数 ,这 样 就 可 以 容易 地 以 2,4,8 次 等 多 种 选择 展开 
循环 ,而 不 融 要 担心 剩余 数组 元 案 的 问题 。 
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5.4 寄存 器 分 配 


编译 器 会 试图 对 C 函数 中 的 每 一 个 局 部 变量 分 配 一 个 寄存 器 。 如 果 几 个 局 部 变量 不 
会 变迁 使 用 ,那么 编译 器 会 对 它们 分 配 同 一 个 寄存 器 。 当 局 部 变量 多 于 可 用 的 寄存 器 时 Lg 
评 器 会 把 多 余 的 变量 存储 到 堆栈 。 由 于 这 些 变量 被 写 人 了 存储 器 ,所 以 被 称 为 浇 出 (spiL- 
led) 或 者 替换 (swapped ou) EM ,就 像 虚拟 存储 器 的 内 容 被 替换 到 硬盘 一 样 。 与 分 配 在 寡 
存 器 中 的 变量 相 比 ,对 溢出 变量 的 访问 要 惕 得 多 ， 

为 了 高 效 地 执行 一 个 函数 ,应 该 做 到 ， 


e 使 溢出 变量 的 数量 最 少 ; 
e 确保 最 重要 的 和 经 常用 到 的 变量 被 分 配 在 寄存 器 。 
首先 ,来 了 解 一 下 ARM C 编译 器 能 够 分 配给 局 部 变量 的 寄存 器 数目 。 $5.3 BT XC 
编译 器 采用 ARM- Thumb 过 程 调用 标准 (ATPCS ?时 ,内 部 害 存 器 的 编号 ,名字 和 分 配方 法 。 
$55 CHISE 
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ARM 嵌入 式 系 统 开发 
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FARAI * $ $ À # z F ATPCS 寄存 器 用 法 
WH ERA ТИ, ЖЕ, ЫИ Ж АЕ (КУРТ) MJ SÉ SST. 
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通用 变量 寄存 器 。 在 使 用 雯 栈 边 界 校 志 的 继 译 情 襄 下 ,710 REESE 
栈 边 界 的 地 址 ;否则 必须 保存 这 个 寄存 器 中 第 调用 函数 的 变量 值 


гід vi sl 





通用 变量 寄存 器 。 除 了 在 使 用 结构 指针 的 编译 情况 下 ,必须 保存 这 
rll v8 fp AREE ERR d CIR M ЕЛ. Н p & ЖЕ] armc 编译 器 使 用 
一 个 结构 指针 
通用 临时 过 激 寄 存 共 ( 草 糖 板 ) 寄 存 器 ,函数 调用 时 会 破坏 其 中 的 值 
堆栈 指针 ,指向 下 降 式 满 淮 栈 的 堆 本 | 
ESRB. ЕИ ТАТ АРЕ ЕЕЕ ERE 
程序 计数 所 





r12 
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P | 


r13 


г14 
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ЮЕ КЕ НЕЗ ЕВА ЛК НЕ EF (Frame pointer). Ж 2, C S8 FEBRE SE u] ELE 
ДИЕ 107—112 和 rl4 来 存放 变量 。 如 果 变 用 到 这 些 寄存 器 ,那么 就 必须 用 堆栈 来 保存 
{411 M rlt 中 的 值 。 

理论 上 ;C 编译 器 可 以 分 配 14 个 变量 到 寄存 器 而 不 会 溢出 实际 上 ,一 些 编译 器 对 基 
些 寄存 器 有 特定 的 用 途 ,例如 用 £12 作为 临时 过 小 寄存 器 (草稿 板 ) 使 用 ,编译 器 就 不 再 分 配 
任何 变量 给 它 了 。 另 外 ,对 于 复杂 的 表达 式 , 也 甸 要 过 滤 寄 存 器 来 计算 , 求 值 。 因 此 ,为 了 确 
保 对 寄存 咀 有 良好 的 分 配 , 并 取得 较 好 的 性 能 ,应 该 尽量 限制 ,使 函数 的 内 部 循环 最 多 只 使 
用 12 个 局 部 变量 。 

如 果 编 译 器 确实 需要 替换 变量 ,那么 编译 器 将 会 根据 变量 的 使 用 频 度 来 选择 要 圭 换 的 
变量 。 一 个 竺 环 内 的 变量 使 用 频 度 会 高 很 多 ,所 以 可 以 按照 变量 所 在 循环 层次 来 决定 其 重 
要 性 。 一 般 最 内 层 循 环 体内 的 变量 就 是 最 重要 的 。 

TE C 语言 中 ,关键 词 register 表示 编译 器 应 该 分 配给 指定 变量 一 个 寄存 器 。 但 是 ,不 同 
的 编译 器 对 这 个 关键 词 的 处 理 也 不 完全 相同 ,不同 的 结构 状态 下 可 供 分 配 的 寄存 器 数目 也 
不 相同 (比如 Thumb 和 ARMD 。 因 此 应 尽量 各 鲍 使 用 register 关键 词 ,而 应 依 束 编译 器 正 
常 的 寄存 器 分 配 策略 来 分 配 。 


h 8 着 发 的 下 新 秋 分 本 


€ 应 该 尽量 限制 函数 内 部 循环 所 用 局 部 变量 的 数目 ,最 多 不 超过 12 个 ,这样 ,编译 大 
就 可 以 把 这 些 变量 都 分 配给 ARM ETE 
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5 高 效 的 C 编程 
e 可 以 引导 编译 器 ,通过 查看 是 否 属于 最 内 层 循环 的 变量 来 确定 某 个 变量 的 重要 性 。 


5.5 ПШ 





ARM 过 程 调用 标准 (APCS) 定 义 了 如 何 通过 寄存 器 传递 函数 参数 和 返回 值 。 最 近 的 
ARM - Thumb 过 程 调用 标准 (ATPCS) 又 增加 了 ARM 和 Thumb 互相 调用 的 说 明 。 

函数 中 最 前 面 的 4 个 整 型 参数 是 通过 ARM 的 前 4 个 寄存 器 r0,rl,r2 和 r3 来 传递 的 。 
随后 的 整 型 参数 是 通过 下 降 式 满 堆栈 (full descending stack) 来 传递 的 ,图 5. 1 显示 了 参数 
的 存放 情况 。 函 数 返 回 的 整 型 数据 通过 寄存 器 r0 来 传递 。 
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8 5.1 ATPCS 参数 传递 


这 里 的 描述 只 针对 整 型 和 指针 类 型 的 参数 。 双 字 类 型 的 参数 ,例如 long long 类 型 或 者 
double 类 型 ,是 通过 一 对 连续 的 寄存 器 传递 的 , 双 字 类 型 的 返回 值 存放 在 r0 和 rl 中 。 编 译 
器 可 以 通过 寄存 器 或 根据 命令 行 选 项 参考 来 传递 结构 体 。 

首先 应 指出 的 是 ,过 程 调用 标准 是 4 寄存 器 规则 (four - register rule), 带 有 4 个 或 者 
更 少 参数 的 函数 ,要 比 多 于 4 个 参数 的 函数 执行 效率 高 得 多 。 对 带 有 少 于 4 个 参数 的 函数 
来 说 ,编译 器 可 以 用 寄存 器 传递 所 有 的 参数 ;而 对 于 多 于 4 个 参数 的 函数 ,函数 调用 者 和 被 
调用 者 都 必须 通过 访问 堆栈 来 传递 一 些 参数 。 

ЖЖ: 在 C 十 十 中 ,一 个 对 象 方法 的 第 一 个 参数 总 是 this 指针 。 这 个 参数 是 隐 式 的 ,并 附加 到 其 它 显 
AMA, 


如 果 一 个 函数 的 参数 多 于 4 个 ,或 者 C 十 十 中 的 显 式 参数 多 于 3 个 ,那么 通常 使 用 结构 
体 ,执行 效率 会 更 高 。 将 多 个 相关 的 参数 组 织 到 一 个 结构 体 中 ,传递 一 个 结构 体 指针 来 代替 
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多 个 参数 。 娜 些 参 数 应 该 归 到 一 个 结构 体 , 这 将 依赖 于 应 用 程序 。 

下 面 的 例子 说 明了 使 用 结构 体 指针 的 好 处 。 这 是 一 个 典型 的 子 程序 ;从 数组 date 插入 
М 个 字 节 到 一 个 队列 里 面 。 这 里 用 一 个 起 始 地 址 是 Q .startt 包 括 此 地 址 ) .结束 地 址 是 Q 
end( 不 包括 此 地 址 ?的 循环 缓冲 区 来 实现 这 个 队列 。 


char < queue bytes vl ( 
char «Q start, ж АЖИ nh К g ta h + / 
char «Q end, / + 队列 组 冲 区 结束 地 址 * / 
char *0 ptr, бж ДАУН + / 
char # data , / * 揪 人 队列 的 数据 / 
unsigned int М) /+# 播 人 数据 的 数目 + / 





opino suedojeAeq WAAS угу 


do 


{ 
* (D ptr +f) = ж (datat*) ; 


if (Q_ptr == Q end) 
| 


Q ptr= Q start ; 
} 
| while ( — B) ; 
114 return Q ptr ; 
j 
ЖЕБЕЙ, 

queue bytes v1 
STR rl4,[r13, 3 -4]I ‚заме ]r on the stack 
LDR r12,[x13, # 4] 1г12= # 

queue vl loop 
LDRB r14,[r3]. Ë 1 ;rld= x ( data ++) 
STRB rl4,r2], # 1 ; * (Q ptr++ ) = r14 
CHE ї2,г1 zif (Q ptr== Q end) 
MOVEQ r2,r0 íf Q ptr- 0 start;] 
SUBS r12,r12, #1 t 77 N and set flags 
BNE queu& vl loop sif (N 1= 0 ) goto loop 
MOV rü.r2 :10=0 ptr 


LDR pc,[ r3], 4 4 return rÜ 





可 以 将 这 个 例子 与 使 用 3 个 应 数 参 数 的 结构 化 的 例子 进行 比较 。 
[55.6] 下 面 的 代码 定义 了 一 个 称 为 Queue 的 结 梅 体 ,把 这 个 结构 体 指针 传递 给 机 


数 ,这 样 减少 了 画 数 参数 的 个 数 ， 


typedef struct | 
char * Q start , / * BASH ЖЕҢИШ + / 


char * Q end, /¥# EIE ph КЕ ЕНШ = у 
char +Q ptr, / ж 当前 队列 指针 位 置 * 7 
} Queue ; 


void quete bytes v! (Queue * queue,char ж data,unsigned int N ) 
{ 

char +* Q ріг = queue- >Q ptr ; 

char * Q егі = queue- 79 end ; 


da 


{ 
* (Q ptr i+ у = ж ( datatt ) ; 


if (Q ptr-- Q end) 
{ 
Q ptr = queue - —0Q start ; 
} 
) while( — H} | 
queue – > ptr-0 ptr + 
} 


编译 后 生成 ， 

queue bytes v2 
STR riá [r13 # - 4) save lr on the stack 
LDR r3,[r0, # 8] r3 = queue — >ü ptr 
LDR ri4,[r0, # 4] {т14 = QUEUE — 79 Q end 

queue v4 loop 
LDRB ri2,[ri], #1 112 = ж (data ++) 
STRE r12,[r3), # 1 4 (Q ptr++)=r12 
СИР r3,r14 Ш (Q ptr== Q end) 


LDREQ r3, r0, #0] y Q ptr-queue- >Q start 
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SUBS r2,r2, #1 ;—- N and set flags 

ENE queue v2 loop sif (N| = 0 3 goto loop 
STR r3,[ró, #8] ;queue - 7 ріг = r3 
LDR pc,[ r13], 3 4 returni 


queue bytes v2 比 queue, bytes vi 多 了 一 条 指令 ,但 实际 上 总 体 效 率 却 更 高 ， 相 比 前 
面 的 5 个 参数 ,在 第 2 个 例子 中 仅 有 3 个 函数 参数 ,所 以 每 次 函数 调用 只 须 设 笑 3 个 寄存 
器 。 而 在 第 1 个 例子 中 ,每 次 调用 要 有 4 个 寄存 器 设置 .一 个 压 栈 、. 一 个 退 栈 。 在 函数 调用 
开销 方面 , 净 省 了 2 条 指令 。 对 被 调用 画 数 来 说 ,可 以 节省 更 多 ,因为 它 只 须 分 配 一 个 寄存 
器 给 queue 结构 指针 , 而 不 需要 像 前 面 非 结 构 化 的 便 子 中 那样 分 配 3 个 寄存 器 。 

如 果 函 数 体 很 小 ,只 用 到 很 少 的 寄存 器 (很 少 的 局 部 变量 ) ,那么 还 有 一 些 其 它 的 方法 来 
减 小 质数 调用 的 开销 。 可 以 把 调用 函数 和 被 调用 函数 放 在 同一 个 上 文件 中 ,这 样 编译 器 就 
知道 了 被 请 用 函数 生成 的 代码 ,并 以 此 对 调用 函数 进行 一 些 优化 ， 

€ 调用 消 数 不 需要 保护 被 调用 函数 没有 用 到 的 寄存 髓 ,因此 ,调用 函数 也 不 需要 保护 

所 有 ATPCS НЕЕ: 
e 如 果 被 调用 的 函数 很 小 ,那么 编译 器 可 以 在 调用 函数 中 内 联 被 调用 冰 数 的 代码 , 这 
样 可 以 彻底 去 除 函 数 调用 开销 ，。 


КИ 5.7] 函数 шпі to hex 把 一 个 32 位 的 无 符号 整数 转换 为 8 个 十 六 进 制 数 。 
这 个 函数 调用 了 一 个 辅助 函数 nybble_to_hex, 把 一 个 在 范围 0 一 15 的 数字 d 转换 为 一 
个 十 六 进 制 数字 


unsigned int nybble to hex ( unsigned int d) 
{ 
if ( @<10) 
{ 
teturnd + 0; 
} 
return d- 10 + W| 
) 


void uint to hex ( char + out,unsigned int in) 
{ 
unsigned int і } 


for ( 1=8 рі = 0;i— ) 
{ 
іп= (іп «c 4) | C in >> 28) н ЖЕШ af +/ 
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# (out ++) = (char ) nybble to hex (in & 15) ; 
} 
} 
编译 后 ,可 以 看 到 函数 ant to. hex 根本 没有 调用 函数 ny bble to, hex! 在 下 面 编译 后 
的 代码 中 ,编译 器 内 联 了 uint to hex 的 代码 。 这 将 比 函 数 调用 效率 高 得 多 ， 
vint, to hex 
MOV r3, #8 ;i- В 
uint to hex loop 
MOV rl,rl,ROR #28 ;in- Cin << 42 | (іп >> 28) 
AND т2,г1, # üxf {ї2 = in & 15 
CMP r2, # Oxa iif ( r? > = 10) 
ADDCS 12,12, # 0x37 ; r2 += -10 
ADDCC г2,г2, #0x30 else r2 += 10 
STRE rż, [rů], #1 1¥ (out ++ ) = r2 
SUBS 13,13, #1 ;i—- and set flags 
BNE vint, to, bex, loop yif ( i!= 0) goto loop 
MOV pe,rl4 ;return 


编译 器 只 会 内 联 比较 小 的 函数 。 也 可 以 使 用 _inline З RPE PLE 1 =. 
不 过 这 个 关键 字 只 是 一 个 提示 ,编译 器 可 能 会 忽略 它 ( 关 于 内 联 函 数 的 更 多 信息 可 参见 5. 12 
节 )。 内 联 一 个 大 的 函数 将 会 大 大 增加 代码 量 ,而 对 性 能 却 不 会 有 大 的 改善 ， 


A £ 8336888 
e 尽量 限制 函数 的 参数 ,不 要 超过 14. BEF S3KBMH SAW ЖЕҢ. tn li q 
相关 的 参数 组 织 在 一 个 结构 体 中 ,用 传递 结构 体 指针 来 代替 多 个 参数 。 
e 把 比较 小 的 被 调用 函数 和 调用 函数 放 在 同一 个 源 文 件 中 ,并 且 要 先 定义 ,后 调用 , 编 
译 帘 就 可 以 优化 孙 数 调用 或 者 内 联 较 小 的 函数 。 
e 对 性 能 影 啊 较 大 的 重要 函数 可 使 用 关键 字 _intine 进行 内 联 。 


5.6 ”指针 别名 


当 2 个 指针 指向 同一 个 地 址 对 象 时 ,这 2 个 指针 被 称 作 该 对 象 的 别名 (alias)。 如 果 对 
其 中 一 个 指针 进行 写 人 ,就 会 影响 从 另 一 个 指针 的 读 出 。 在 一 个 函数 中 ,编译 器 通常 不 知道 
哪 一 个 指针 是 别名 , 哪 一 个 不 是 ;或 娜 一 个 指针 有 别名 , 哪 一 个 没有 。 编 译 器 必须 非常 悲观 
的 认为 ,对 任何 一 个 指针 的 写 人 ,都 将 会 影响 从 任何 其 它 指 针 的 读 出 ,但 这 样 会 明显 降低 代 
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码 执行 的 效率 。 
先 看 一 个 非常 简单 的 例子 。 下 面 的 函数 对 2 个 定时 融和 使 用 -- 个 步 进 量 进行 累加 : 
void timer vl ( int = timerl,int * timerZ,int * step) 
{ 
ж timerl += x step; 


ж timer2 += x step; 


} 


编译 后 生成 ， 
timers_ vl 

LDR r3, [r0,# 0] r3 = w timerl 
LDR г12,[12,# 0] ;r12 = x step 
ADD r3,r3,ri2 173 += r12 
STR r3,[r0,8 0] í * timer] = r3 
LDR г0,[г1,# 0] IO = * timer 
LDR r2,[r2,1 0] {Т2 = * step 
ADD rü,rÜ,r2 110 += r2 
STR г0,[гі,# 0j ; * timer2- rÜ 
MOV pc ,г14 return 


IER AUERUR S step 两 次 。 通 常 ,一 种 被 称 为 公共 子 表达 式 消 除 (common subexpres- 
sion elimination) 的 编译 器 选项 ,可 以 使 编译 器 优化 * step, 只 被 装载 一 次 ;第 二 次 使 用 时 ,其 
值 将 会 被 重复 使 用 。 伍 是 ,在 这 里 编译 器 不 能 使 用 这 种 优化 。 指 针 timerl 和 指针 step 可 能 
会 互 为 别名 。 换 旬 话 说 ,编译 器 不 能 确定 对 指针 timerl 的 写 人 是 否 会 影响 从 指针 step 的 读 
出 。 在 这 种 情况 下 ,第 二 次 * step 的 值 将 与 第 一 次 的 不 同 , 将 会 是 * timerl 的 值 。 这 就 使 
编译 器 不 得 不 增加 一 条 额外 的 load 指令 。 | 

A AR RES Book ЕЕ ЗЕКИЕ E FU IRL o B НВА, LAS IC ЕЕ B 
结果 执行 效率 也 不 高 ， 


typedef struct { int step ;) State ; 


typedef struct { int Limerl,timer2 ;} Timers; 


void timers v2 ( State * state,Timers ж timers ) 
{ 
timers - —timerl += state - “>step + 


timers - —timer2 += state - step; 
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为 了 防 上 上 state— step Ж timers— > timerl ФЕ — F £F 48 B , Sp EE Sy A 28 X state 
— step 求 值 2 次 。 若 想 避 免 这 种 情况 也 是 容易 的 ;定义 一 个 新 的 局 部 变量 来 保存 state- 
втер 的 值 。 这 样 编译 器 就 只 进行 一 次 装载 了 。 

[55.8] 在 tmers_v3 代码 中 ,使 用 一 个 局 部 变量 step 来 保存 state — 7 step Ш, 

现在 编译 占 就 不 需要 担心 state 和 timers 的 别名 问题 了 。 


void timers v3 ( state + state,Timers x timers ) 


í 





int step = state- —step ; 


timers — >timerl1 += step; 
timers — —timer2 += step 上 
} 
男 外 ,对 其 它 一 些 不 明显 的 别名 情况 也 要 小 心 。 当 调用 其 它 函 数 时 ,被 调用 的 函数 可 能 
会 玫 变 存储 器 的 内 容 , 这 样 也 就 可 能 改变 了 所 有 涉及 存储 器 读 的 表达 式 的 值 ,编译 器 将 会 重 
新 对 相关 表达 式 进行 求 值 。 例 如 ,假设 先 读 state 一 >step, 调 用 一 个 函数 后 ,再 读 state > 
step。 编 译 器 必须 假定 调用 的 函数 会 改变 内 存 中 state — — step 的 值 , 因 此 就 会 执行 2 次 读 
操作 ,而 不 是 再 次 使 用 第 一 次 读 到 的 state 一 >step 的 值 。 
另 一 个 问题 ,是 要 获取 局 部 变量 的 地 址 。 一 旦 这 人 么 做 了 ,这 个 变量 就 被 一 个 指针 所 对 
应 ,就 可 能 与 其 它 指针 产生 别名 。 万 一 别名 发 生 , 编 译 器 宁可 从 堆栈 重新 读 人 数据 。 考 虑 下 
面 的 例子 , 读 人 一 个 数据 包 并 计算 它们 的 校 验 和 : 


int checksum next packet (void ) . 
{ 

int x data ; 

int N,sun = 0; 


data = get next, packet (SN); 


йс 
i 


sum += < (data ++); 
j"hile ( — N 5.; 


return sum; 


р 
这 里 get, next, packet 函数 返回 下 一 个 数据 包 的 地 址 和 大 小 。 下 面 是 编译 后 生成 的 代码 ， 
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checksum next packet 


5ТМЕП tl31，frd，rld4 } :Save rd, lr on the stack 

508 гіЗ,г1з, #8 :Create two stacked variables 
ADD rO,ri3, [4 iro = &N,N stacked 

MOV гі, 0 ‚зоп = 0 

BL get next packet rū = data 


LDR г1,[т0], #4 ;rl- ж (data ++) 

ADD rá,rl,r4 sum += г] 

LDR r1,[713, #4] зг] =N (read from stack ) 
SUBS rl,ri, #1 {Т1 — & set flags 

STR rl,[r13, #4] N= rl (write to stack ) 
BNE checksum loop ;if ( N !- 0 ) goto loop 
MOV rü,r4 rÜ = sum 

ADD г13,ғ13, #8 ;delete stacked variables 
LDMFD r13!,( zd, pc) ,return rÜ 





注意 对 于 每 一 次 N 一 编译 器 是 如 何 从 堆栈 读 / 写 N B), 一旦 得 到 了 N 的 地 址 ,并 将 它 
传递 给 get next. packet, 编译 器 就 需要 担心 别名 问题 ,因为 指针 data 和 Š N 可 能 会 是 别 
名 。 为 了 避免 这 种 情况 ,不 要 使 用 局 部 变量 的 地 址 。 如 果 必 须 这 样 做 ,那么 可 以 在 使 用 之 前 
先 把 它 的 值 复制 到 男 外 一 个 局 部 变量 。 

读者 可 能 会 疑惑 ,为 什么 编译 器 要 分 配 2 个 堆栈 变量 的 空间 而 实际 只 用 1 个 。 这 是 为 
了 保持 堆栈 的 8 字 节 边界 对 齐 , 在 ARMv5TE 结构 体系 中 的 LDRD 指令 要 求 这 样 做 。 上 面 
的 例子 实际 上 没有 使 用 LDRD, 但 是 编译 器 不 知道 get. next. packet 是 否 会 使 用 这 条 指令 。 
A £8 ШЕННЕ 

° 不 要 依赖 编译 器 来 消除 包含 存储 器 访问 的 公共 子 表达 式 ,而 应 建立 一 个 新 的 局 部 变 

“” 量 来 保存 这 个 表达 式 的 值 ,这 样 可 以 保证 只 对 这 个 表达 式 求 一 次 值 ， 

e 避免 使 用 局 部 变量 的 地 址 ,否则 对 这 个 变量 的 访问 效率 会 比较 低 。 


5.7 结构 体 安排 
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通常 ,使 用 结构 体 是 因为 觉得 结构 体 可 明显 地 改善 性 能 各 增强 代码 密度 。 存 ARM 上 
使 用 结构 体 有 2 个 问题 需要 考虑 ,结构 体 地 址 边界 对 齐 和 结构 体 总 的 大 小 ， 

对 于 ARMv5TE 及 其 以 上 的 体系 结构 ,load 和 store 指令 仅仅 保证 从 与 访问 宽度 尺 二 
对 齐 的 地 址 来 装载 和 存 情 数据 。 表 5.4 列 出 了 这 些 限制 。 






5 高效 的 C 编程 





基于 这 个 原因 ,ARM 编译 器 将 会 自动 把 一 个 结构 体 的 起 始 地 址 与 该 结构 体 中 最 大 访 

问 数 据 宽 度 (通常 4 或 者 8 字 节 ) 的 倍数 对 齐 , 并 通过 插入 填充 位 把 结 物体 地 址 边界 与 它们 = 
的 存 取 宽度 相对 齐 。 2 
例如 ,看 下 面 的 结构 体 : z 
struct | x 

char a; 9 

int b; Q 

char c; 3 

short d, ` 3 

О 


} 
对 于 小 端 (little-endian) 存 储 器 系统 ,编译 器 会 增加 填充 位 (pad) 安 排 数据 ,以 确保 下 一 
个 目标 与 其 尺寸 朗 求 的 地 址 相对 齐 ， 


Addreas 


b[31,24] b[23,16] 
d[15 ,8] d(?.0] 








385.4 ARMNSTE 中 load 和 store 的 边界 限制 
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传递 的 字 节 数 m + 半 节 地 直 
1 byte . LDRB, LDRSB, STRB 任何 字 节 地 址 对 齐 
2 bytes LDRH, LDRSH, STRH z 字 节 的 倍数 地 下 对 齐 
4 bytes . LDR, STR 4 字 节 的 情 数 地 址 对 齐 
8 bytes LDRD, STRD 8 335 B5 ЕДЕН 


为 了 提高 存储 器 的 空间 利用 率 ,应 该 重新 安排 各 变量 元 素 的 位 置 ， 


struct í 
char a; 
char с; 
short d; 
int b; 

} 


这 样 ,结构 体 的 大 小 从 12 字 节 减少 到 8 字 节 ,下面 是 新 的 编排 ， 


ARM 谋 入 式 系统 开发 
Address 十 3 

+0 | 4[15,8] 477,0] 

+4 | b[31,24] | 23,16] 
因此 ,这 是 组 织 一 个 结构 体内 各 元 素 的 好 方法 ,这 样 , 结 构 体 存 情 时 就 不 需要 播 人 不 必 


要 的 填充 位 。armcc 编译 器 支持 一 个 关键 字 __packed, 表 示 去 除 所 有 的 填充 位 。 例 如 , 结 
构 体 


packed struct 








char a; 

int b; 

char c; 

short d; 
) 


在 内 存 中 将 会 安排 为 


opino sdecioleAedq WLAS Nay 


Address 十 3 +? +1 +0 





iX EE TERES BLRCITR P T Hihi packed 6ТЕ ЖЕБЕ. BT 
数据 边界 不 对 齐 , 编 译 器 只 能 通过 多 个 边界 对 齐 的 操作 ,把 结果 合并 ,重组 ,来 模拟 边界 不 对 
齐 的 load 和 store 操作 。 所 以 ,一般 只 有 在 程序 的 代码 空间 比 执行 效率 更 重要 ,而 且 重 新 排 
列 并 木 能 减少 填充 位 的 情况 下 , 才 使 用 __packed 关键 字 。 还 有 就 是 在 移植 一 个 在 存 情 器 中 
有 确定 结构 安排 的 代码 时 ,也 会 用 到 它 。 

在 存 情 峰 中 对 一 个 结构 体 的 确切 安排 依赖 于 编译 器 供应 商 和 所 使 用 的 编译 器 版 本 。 在 
APK Application Programmer Interface) 定 义 中 ,人 工 把 不 能 去 除 的 填充 位 插入 结构 体 中 ， 
不 失 为 一 种 好 方法 。 这 种 明确 的 结构 体 安排 方法 ,对 连接 不 同 供 应 商 和 版 本 的 编译 器 生成 
的 代码 是 有 利 的 。 

为 一 个 不 明确 的 问题 是 枚 举 (enum) 类 型 。 不 同 的 编译 器 根据 校 举 的 范围 ,对 于 术 举 类 
型 会 分 配 不 间 的 空间 大 小 。 例 如 ,考虑 类 型 

typedef enum | 

FALSE, 
TRUE 
;Bool ; 
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E ADSI, 1 中 的 arme 编译 器 认为 Bool 是 1 字 节 的 数据 类 型 , 因 胃 Bool 只 使 用 值 0 
和 1。 在 一 个 结构 体 中 ,Bool 仅仅 占用 8 fif 25 E|, (HIE gcc 认为 Bol 是 一 个 字 类 型 ,在 С 
一 个 结构 体 中 会 占用 32 位 的 空间 。 为 了 避免 这 种 不 确定 性 ,最 好 在 API 使 用 的 结构 体 中 
避免 使 用 enum 类 型 。 

刃 一 个 须 考 虑 的 问题 是 结构 体 的 尺寸 和 结构 体 中 各 元 素 的 偏 移 量 ,这 是 一 个 在 Thumb 
指令 集 下 编译 时 最 为 敏感 的 问题 。Thumb 指令 只 有 16 位 宽度 ,因此 从 一 个 结构 体 基地 址 
指针 起 ,只 允许 较 小 的 元 束 偏 移 量 。 表 5. 5 显示 了 在 Thumb 方式 下 装载 和 存储 基 寄 存 器 
KREE. 





35.5 "Thumb 方式 下 load 和 store 的 以 移 量 


ж + AE AE EORR Ж ЖЖ T 
LDRB, LDRSB, STRB 0-31 个 字 节 
LDRH, LDRSH, STRH 0 一 31 435g (07-62 字 节 》 
LDR，STR 0-31 49  (0—124 FË) 


因此 编译 器 产生 一 条 指令 ,只 能 访问 存放 在 结构 体 前 32 字 节 中 的 一 个 8 位 大 小 的 结构 
ETR. 类似, 单一 指令 只 能 访问 存在 于 结构 体 前 64 字 节 中 的 一 个 16 位 大 小 的 元 素 , 或 存 
在 于 结构 体 前 128 字 节 中 的 一 个 32 位 大 小 的 元 素 。 一 旦 超过 了 这 个 限制 ,对 结构 体 访问 的 
效率 将 会 变 得 很 低 。 

遵循 下 面 的 规则 来 组 织 元 素 构 造 一 个 结构 体 ,可 以 获得 最 高 的 效率 ， 


e 把 所 有 8 位 大 小 的 元 素 安 排 在 结构 体 的 前 面 ， 

e 依次 安排 16 位 ,32 位 和 64 位 的 元 素 ; 

e 把 所 有 数组 和 比较 大 的 元 素 安排 在 结构 体 的 最 后 

€ 对 于 一 条 指令 ,如 果 结 构 体 太 大 而 不 能 访问 所 有 的 元 素 , 那 么 把 元 素 组 织 到 一 个 子 
结构 体 中 。 编 译 器 可 以 维持 单独 的 子 结构 体 的 指针 。 


小 # RREAK 

e 结构 体 元 素材 按照 元 素 的 大 小 来 排列 ,以 最 小 的 元 素 放 在 开始 ,最 大 的 元 素 安排 在 
最 后 ; 

e 避免 使 用 很 大 的 结构 体 , 可 以 用 层次 化 的 小 结构 体 来 代替 ; 

e 为 了 提高 可 移植 性 ,人 工 对 API 的 结构 体 增加 填充 位 ,这 样 ,结构 体 的 安排 将 不 会 依 
BUT AES: 

€ ЖАРГЫ ЖР ЖШ ШЕЕ Cenum) ЖЭШ, 一 个 枚 举 类 型 的 大 小 是 编译 器 相 
关 的 。 
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ARM 嵌入 式 系 统 开发 
5.8 位 B 


位 域 可 能 是 在 ANSI C 规范 中 最 小 的 标准 化 部 分 了 。 位 域 被 声明 用 来 存放 特定 数目 的 
位 。 编 译 器 可 以 选择 各 个 位 的 分 配 位 置 ,单单 就 这 个 原因 ,应 该 避免 在 一 个 联合 (union) 或 
者 API 结构 体 定义 中 使 用 位 域 ， 不 同 的 编译 器 可 以 对 相同 的 位 域 分 配 不 同 的 位 置 ， 

以免 使 用 位 域 对 提高 效率 是 有 好 处 的 。 位 域 是 结构 体 的 元 素 , 通 常 使 用 结构 体 指针 进 
行 访问 ;所 以 ,它们 也 同样 存在 着 5. 6 节 中 提 到 的 指针 别名 问题 。 每 一 个 对 位 域 的 访问 实际 
上 就 是 对 存 情 器 的 访问 ,可 能 出 现 的 指针 别名 问题 使 得 编译 器 需要 经 常 重新 装载 位 域 。 

下 面 的 例子 ,dostages_v1, 举 例 说 明了 这 个 问题 。 同 时 也 显示 了 编译 器 不 会 很 好 地 倾 
向 于 去 优化 位 域 测试 。 


void dostageÀ (void ){ 
void dostageB (void ); 
void dostageC (void ); 


typedef struct | 
unsigned int stage ,1; 
unsigned int stageB .1; 
unsigned int stage 1; 
} Stages vl, 


void dostages vl(Stages vl * stages) 
{ 
if ( stages – — stagel) 
{ 
dostageA () , 
} 
1f ( stages - > stageB) 
{ 
dostageB () ; 
} 
if ( stages - 7 stageC) 
1 
dostageC () | 
} 
} 


5 高 效 的 C 编程 


这 里 使 用 了 3 个 位 标志 来 表示 处 理 的 3 个 本 朵 阶段 。 这 个 例子 编译 后 生成 : 


dostages чі 


STMEU r13).í rd,.rl4 | 
MOV r4,rü 

LDR rü [r0 #0] 
TST го, #1 

BLNE dostageA 

LDR ro, r4, #0] 
MOV rÜ rü LSL 4 32 
CME r0, #0 

ВИТ dostageB 

LDR ro, [ r4, #0] 
MOV rO,rÜ,LSL #29 
СИР r0, $0 
LDMLTED ri3t,{ 24.714 ] 
BLT dostagec 

LDMFD r13!,.( rá,pe ) 


stack  r4.lr 

move stages to r4 

{кб = stage bitfield 

iif (stage- 7» stageh ) 
| dostagel ();! 

rū = stages bitfield 

;shift bit 1 to bit 31 

rif (bit31) 

í ( destage&() i] 

{Т0 = stages bitfield 

¡shift bit 2 to bit 31 

tif (1 bitil) 

p return 

idostageC (0, 


|ireturn 


注意 编译 能 一 共 访 问 了 包含 位 城 的 存储 器 位 置 3 К.А ОЖ CEU lE PER B 
dostage 晴 数 可 能 会 改变 值 。 另 外 ,编译 器 使 用 两 条 指令 来 测试 位 域 中 的 bit 1 bit 2, 
使 用 一 个 整 型 歼 来 代替 一 个 位 域 , 可 以 产生 效率 高 得 多 的 代码 。 使 用 enum 或 者 # de- 


fine 屏蔽 来 把 一 个 整 型 数 分 成 乒 个 不 园 的 域 ， 


[555.9]. 下 面 的 代码 使 用 逻辑 操作 而 不 是 位 城 来 实现 dostages RA: 


typedef unsigned long Stbges v2 
# define STAGEA ( lul << 0) 
# define STAGEB ( lul << 1) 
# define STAGEC ( lul << 2) 


void dostages wl(Stages v2 # stages v2 ) 


i 
Stages v2  stages- # stages v2; 


if ( stages & STAGEA) 
| 
dostagel (); 
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if ( stages& STAGEB) 
d 
dostageB () ; 
} 
if ( stagesk STAGEC) 
{ 
dostageC () ; 
} 
} 


既然 一 个 unsigned long 类 型 包 会 了 所 有 的 位 域 ,那么 就 可 以 把 这 些 位 域 的 值 保 存 到 一 
个 局 部 变量 stages, 这 可 以 避免 在 5.6 节 中 讨论 的 内 存 变量 别名 问题 。 换 句 话 说 ,编译 器 必 
须 假 定 dostageX( 这 里 X Am А,В Ж C) 函 数 可 能 会 改变 x stages_v2 的 值 。 

编译 器 生成 下 面 的 代码 ,代码 量 比 前 面 使 用 ANSI 位 域 的 版 本 减少 了 33 多， 


dostages v2 
STMFD rl31,{ rd,rlá } stack r4,lr 
LDR r4, [z0, 1t 0] ;8їаде = x stages v2 
TST r4,#1 ;if (stage & STAGEA ) 
BLKE dostageA г Í dostageh ()i!) 
TST r4, #2 1if (stage & STAGEB ) 
BLKE dostageB + ( dostageBO;) 
TST r4, #4 {1Ё (1 (stages & STAGEC)) 
LDMNEFD rl3 1,{ r4, rla } ;return 
BNE dostageC ;dostageC (); 
LDMFD r13!,( rá,pc } ;return 


也 可 以 使 用 屏 藏 位 来 设置 和 清除 位 域 , 这 和 测试 位 域 -一 样 简单 。 下 曾 的 代码 显示 了 如 
何 使 用 STAGE 屏 藏 位 来 设置 ,清除 或 者 取 反 位 ， 


stages | = STAGEA ; / * enable stage А + / 
stages & = ~ STAGER ; / * disable stage B + / 
stages ^= STAGEC ; / * toggle stage C x / 


这 几 个 位 的 设置 .清除 和 取 反 操作 都 只 使 用 了 一 条 ARM 指令 ,分 别 为 ORR,BIC 和 
EOR 指令 。 另 外 还 可 以 使 用 一 条 指令 同时 处 理 几 个 位 域 。 例 如 


stages | = (STAGEA |STAGEB) , / * enable stages ñ and B x / 
stages &= --( STAGEA | STAGEC ); / * disable stages A and С ж / 
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A £ t o 
e V Ө y BR, (ER # define 或 者 enum 来 定义 屏 项 位 ; 
e 使 用 整 型 退 辑 运算 AND、OR、“ 异 或 ”操作 和 屏 项 对 位 域 进行 测试 、 取 反 和 设置 操 
作 。 这 些 操作 编译 效率 高 ,还 可 以 同时 对 多 个 位 域 进行 测试 , 取 反 和 设置 。 


5.9 ”边界 不 对 齐 数据 和 字 节 排列 方式 (大 /小 端 》 


边界 不 对 齐 数 据 和 字 节 排列 方式 这 2 个 问题 ,可 使 内 存 访 问 和 移植 问题 复 淋 化 。 须 考 
虑 数组 指针 是 否 边界 对 齐 ,ARM Bu BL EA Ig (big - endian) , Ж Clittie —- endian) Й # 
储 器 系统 。 

ARM 的 load 和 store 指令 假定 地 址 是 正在 装载 或 者 存储 的 数据 类 型 长 度 的 倍数 。 如 
果 装 载 和 存储 的 地 址 与 数据 类 型 边界 不 对 齐 ,那么 可 能 会 产生 异常 的 结果 ,例如 数据 异常 或 
者 装载 了 一 个 错位 的 值 。 对 于 质量 好 .可 移植 的 代码 ,应 尽量 避免 使 用 边界 不 对 齐 的 访问 。 

通常 情况 下 C 编译 器 假定 指针 是 边界 对 齐 的 。 如 果 指 针 不 是 边界 对 齐 的 ,那么 程序 的 
执行 会 产生 木 正确 的 结果 。 这 样 ,把 代码 从 那些 锡 许 边界 不 对 齐 访问 的 处 理 澳 移植 到 
ARM 时 就 会 出 现 问题 。 对 armee 来 说 ,保留 字 __packed 告诉 编译 器 一 个 数据 可 以 放 在 任 
意 字 节 对 齐 的 位 置 。 这 对 移植 代码 是 很 有 用 的 ,但 显然 会 影响 性 能 。 

为 了 说 明 这 个 问题 ,看 下 面 的 简单 例子 readint。 这 个 函数 返回 由 data 指向 地 址 的 一 个 
整数 ,并 且 已 经 使 用 了 __packed 告诉 编译 器 :这 个 整数 可 能 不 是 边界 对 齐 的 。 


int readint ( _ packed int * data) 
{ 
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return x data ; 

j 

编译 后 生成 ， 

readint 
BIC r3 r0, #3 :rd = data K üxfffffffc 
AND г0,:0, 3 ;r0 = data & 0х00000003 
MOV rO,rO,LSL #3 110 = bit offset of data word 
LDMIA r3,( 13,112 } :13,112 = B bytes read from r3 
MOV r3 r3 ,LSR IO these three instructions 
КВ rů, r0, # 0x20 ;shift the 64 bit value r12, r3 
ORR т0,г3,г12 ,LSL го ;right by rü bits 


MOV porla return rü 
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注意 这 段 代码 的 大 小 和 复杂 度 。 编 译 茵 使 用 2 个 边界 对 齐 的 访问 和 数据 处 理 操作 来 仿 
真 边界 不 对 齐 的 访问 ,开销 很 大 ,并 说 明了 为 什么 要 各 免 使 用 __packed。 和 替代 的 做 法 是 ,使 
用 类 型 char x 来 指向 可 以 出 现在 任何 边界 的 数据 ,这 样 就 不 会 出 现 不 对 齐 的 访 间 。 后 面 将 
介绍 从 一 个 char + 指针 读 32 位 字 的 更 高 效 的 方法 ， 

通常 计算 机 之 间 传 输 信息 ,在 读数 据 包 或 者 文件 时 ,就 会 磁 到 边界 对 齐 问 题 。 网 络 报 文 
利 压 缩 过 的 图 像 文 件 就 是 很 好 的 合子。 在 这 些 立 件 中 ,2 字 节 或 4 字 节 的 整数 可 能 会 出 现 
在 任意 的 偏 移 重 位 置 。 数 据 已 尽 可 能 地 被 压缩 ,损害 了 边界 对 齐 ， 

从 数据 包 或 压缩 过 的 文件 中 读数 据 时 ,数据 字 节 排列 方式 也 是 一 个 很 大 的 问题 。ARM 
核 可 以 被 配置 成 小 端 (little - endian, 最 居 字 节 在 最 低地 址 ) 或 者 大 端 (big - endian, RA E 
节 在 最 低地 址 ) 工 作 模 式 。 朋 常情 况 下 默认 是 小 端 (ittle ~ endian) 模 式 。 

ARM 的 字 节 排列 方式 通常 在 电源 开启 时 设置 ,以 后 一 直 保 持 不 变 。 表 5.6 和 5, 7 举 
例 说 明了 ARM 中 8 位 .16 位 和 32 位 的 load 和 store 指令 对 于 不 同 的 字 节 排序 方式 是 如 何 
工作 的 。 这 里 假定 字 节 地 址 А 与 存储 器 传输 的 大 小 是 对 齐 的 。 表 格 显示 了 存储 器 中 字 节 
方式 的 地 址 如 何 映射 到 load 和 store 指令 操作 的 32 位 寄存 器 。 

35.6 hö little-endian) 配置 


ж + Ж.Ж Гиз b31 ~b24 b23—1516 bl5--b8 b7—=-b0 


LDRB 8 0 0 0 Bt A) 
LDRSB 8 SCÀ) SCA) SCA) B(A) 
STRB 8 X X X ВСА) 
LDRH 16 0 0 B(A +1) BCA) 
LDRSH 16 SC T SGCAT D BCA- 1) BCA) 
STRH 15 X X KA+ ВСА) 
LDR/STR 32 BCA-F3) BCA 4-2) В‹А+1) B(A) 


95.7 Xi (bigendian) RE 


5 4 E Ж /bits b31--b24 b23~b16 bl5-—b8 b? —bo 
LDRB 8 0 0 0 В(А)® 
LDRSB 8 SCA) SCA) 5(А)® ВСА) 

5ТЕВ 8 X X xe BCA) 

LDRH 16 0 0 7 B(A) B(A+1) 
LDRSH 16 SCA) SCA) B(A) BCAÀ4- 1) 
STRH 16 X X ВА) ВО А-1) 
LDR/STR 32 ВСА) BCA4-1) BCAT 2) В‹А +3) 


it: 中 地 址 АЛУ Е, 
@ HA) 的 符号 位 ,如 果 BCAD BS 7 1, M SA ОхН ЖЕЕ 0500; 
О ЖЕ Ж ЕЕЕ НДЕ КЫН. 








什么 是 处 理 字 节 排列 方式 和 边界 对 齐 癌 题 的 最 好 方法 吏 ” 对 执行 速度 要 求 不 是 很 严格 
的 程序 ,用 例子 5. 10 rp BS readint, little 和 readint_big 来 说 明 这 个 问题 该 例 从 边界 
可 能 不 对 齐 的 存储 医 中 读 一 个 4 字 节 的 整数 。 地 址 边界 是 否 对 齐 在 程序 编译 时 刻 是 未 知 
的 ,只 有 到 运行 时 才 知 道 。 如 果 已 经 装载 了 一 个 天 端 数据 的 文件 ,比如 JPEG 了 图像, 那么 就 
用 readint_big! 而 对 小 端 数据 的 字 节 流 , 就 调用 read little, ЖЖ E ARM 配置 的 存储 
器 字 节 排序 方式 ,那么 2 个 函数 都 能 正确 地 执行 。 


ІЙ 5.10] 从 一 个 data 指向 的 字 节 流 读 一 个 32 位 整 型 数据 的 函数 。 
守节 流 可 以 分 别 包含 小 端 或 大 端 数 据 。 这 2 个 西数 与 ARM 配置 的 存储 器 系统 字 节 排 
列 方式 无 关 ,因为 它们 只 用 字 节 访问 ， 
int readint little (char * data ) 
í 
int a0,al, а2,а3; 
ай = ж (data tt); 
al = ж (баба ++); 
а2 = ж (data ++ ); 
аз = * (data ++ ); 
return aÜ | (al << 8) | ( a2 << 16) | ( a3 «« 24); 
) 


int readint big (char * data ) 
1 
int ad,al, a2,a3, 
ай = +» (data +t); 
аї = ж (data ++); 
а? = ж (data t+}; 
аЗ = x (data ++ Y 
return (((((aD << 8) | al) «« B) | aje 16) | аз); 
) 
如 果 对 程序 执行 速度 有 严格 要 求 ,那么 最 便捷 的 方法 是 写 几 个 关键 程序 的 变 体 ,对 每 种 
可 能 的 边界 对 齐 和 ARM 字 节 排序 方式 编写 不 同 的 程序 段 。 这 样 就 可 以 根据 实际 情况 调用 
不 同 的 已 经 优化 过 的 程序 段 。 
[í 5.11] read samples 程序 处 理 从 一 个 以 地 址 in 起 始 的 NN 个 16 位 的 音频 采样 数 
据 。 这 个 音频 采样 数据 是 小 端的 (例如 从 a. wav 文件 ) ,而 且 是 字 节 对 齐 的 。 程序 把 采样 数 
据 复制 到 以 out 指向 的 short 类 型 的 数组 。 这 些 采 样 数 据 将 会 根据 ARM 内 存 的 字 节 排序 
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方式 来 存储 。 
这 个 程序 段 高 效 地 处 理 了 所 有 可 能 出 现 的 情况 ,也 小 管 输入 边界 对 齐 和 和 ARM Ж TE 
序 方式 的 配置 。 


void read samples ( short + out,char ж in,unsigned int N ) 


{ 





unsigned short * data ; / x aligned input pointer є / 


unsigned int sample,next ; 


Switch ( ( unsigned int у in & 1 ) 
{ 
case 0; / * the input pointer is aligned ж / 
data = (unsigned short x ) in; 
do 
{ 
sample = # (data ++ ); 
# ifdef ^ BIG ENDIAN 
sample = ( sample >> В) | ( sample << 8); 
st endif | 
* (out ++ ) = (short > sauple ; 
| while ( — N) ; 
break ; 


case 1: / ж the input pointer is not aligned x / 
data = (unsigned short *) (in- 1); 
sample- x (data ++ y; 
H ifdef , BIG ENDIAN 
sample = sample & Oxff ;/ ж get first byte of sample + / 
# eise 
sample = sample >> B; / ж get First byte of sanple x / 
# endif | 
do 
{ 
next = (data ++); 
/ * complete one sample and start the next ж / 
ibifdef _ BIG ENDIAN 
* out ++= (short ) ( ( next & Oxf£00 ) | sample ) ; 
sample = next & Oxff ; 
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# else 
* out ++= (short ) ((next << 8) | sample ) ; 
sample = next >> 8; 

d endif 


| while ( — N) ; 
break ; 


) 


整个 程序 对 每 一 种 字 季 排列 方式 和 边界 对 齐 给 出 了 不 局 的 代码 段 。 字 节 排 列 方式 在 编 
译 时 用 BIG_ENDIAN 编译 器 标志 表示 。 边 界 对 齐 在 运行 时 使 用 switch 状态 语句 来 分 别 
处 理 。 

为 进一步 提高 程序 执行 效率 ,甚至 可 以 用 32 位 读 / 写 来 代替 16 位 读 / 写 ,在 switch 语 
名 中 产生 4 个 分 支 , 每 个 分 支 处 理 一 种 可 能 的 地 址 边界 对 齐 间 题 ， 


A # #}#ЯЛАЕЕЙУУ 
e 尽量 和夫 免 使 用 边界 不 对 齐 的 数据 ; 
e 使 用 类 型 char * 可 指向 任意 字 节 边界 的 数据 。 通 过 读 字 节 来 访问 数据 ,使 用 逻辑 
操作 来 组 合 数据 ,这 样 代码 就 不 会 依 囊 于 边界 是 否 对 齐 或 者 ARM 的 字 节 排列 方式 
的 配置， 
° 为 了 快速 访问 边界 不 对 齐 的 结构 体 ,可 以 根据 指针 边界 和 处 理 器 的 字 节 排序 方式 写 
出 不 同 的 程序 变 体 ， 


5.10 EX Ж 


ARM ВЕЕР НЧЕ, ЭШЕ ЛОПЕ Н C ЖЕ ЖЕБЕ НЕ MS 有 许 
多 不 同类 型 的 除法 程序 来 适应 不 同 的 除数 和 被 除数 .第 7 章 将 着 重 分 析 汇 编 除法 程序 。C 
库 函 数 中 的 标准 整数 除法 程序 ,根据 执行 情况 和 输 人 操作 数 的 范围 ,要 花费 20 一 100 个 
局 期 。 | 

ЧЕЖЕ Ж AIO RITEK НИВ, BT ULIS ТЕЛЕТ Be E E H. 但 是 ,除数 是 常 
数 的 除法 运算 和 用 同一 个 除数 的 重复 除法 ,执行 效率 会 比较 高 。 本 节 描述 了 如 何 用 彝 法 运 
算 代替 除法 运算 ,以 及 如 何 使 除法 调用 的 次 数 最 少 化 ， 

对 环形 缓冲 区 操作 经 常 要 用 到 除法 ,其 实 完全 可 以 避免 这 些 除法 运算 ， 假定 有 一 个 
buff size 大 小 的 环形 缓冲 区 offset 指定 目前 所 在 的 位 置 。 涌 过 increment 字 节 来 增加 oft- 





сл 
IT] 
= 
O. 
Ф 

5 

— 
O 
20 
© 

3 
3 
3 
ә; 


131 


ARM RAA RANA 
set 的 值 ,一 般 是 这 样 写 的 ， 


offset- ( offset + increment ) $ buffer size; 


效率 更 高 的 写法 是 ， 
offset += increment ; 
if ( offset > = buffer size } 


{ 


offset -= buffer size; 


} 


58 — 8 5 15 3 4E 50 个 周期 ,而 第 二 种 因为 没有 除法 运算 ,只 须 花 费 3 个 周期 。 这 里 
假定 increment < buffer_size ,在 实际 应 用 中 这 点 应 该 是 保证 的 。 

如 果 不 能 避免 除法 运算 ,那么 就 应 尽量 使 除数 和 被 除数 是 无 符 导 的 整数 。 有 符号 的 除 
法 程序 执行 起 来 更 加 悍 , 因 为 它们 先 要 取得 除数 和 被 除数 的 绝对 值 , 再 调用 无 符号 除法 运 
算 , 最 后 再 确定 结果 的 符号 。 

许多 人 语言 库 中 的 除法 阔 数 返回 商 和 余数 。 换 旬 话 说 ,每 一 个 除法 运算 ,余数 是 可 以 
无 偿 得 到 的 ,反之 亦 然 。 例 如 ,要 在 屏幕 缓冲 区 找到 偏 移 量 为 offset 的 屏幕 位 置 (x,y) ,可 
以 这 样 写 ， 


typedef struct | 


int X ; 
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132 int y; 


point p 


point getxy vl ( unsigned int offset, unsigned int bytes per line) 
{ 

point p; 

p.y7offset/bytes per line | 

p.x-offset- р. ү * bytes per line; 

return p i | 


) 


这 里 ,似乎 对 p. x 使 用 减法 和 非法 , 少 了 一 次 除法 运算 ;但 是 ,实际 上 使 用 模 运 算 或 者 
取 余 操 作 效 率 更 高 。 


【 例 5.12] 在 getxy_v2 中 ,对 除法 程序 , 商 和 余数 控 作 只 需要 一 次 调用 。 


point getxy v2 ( unsigned int offset,unsigned int bytes per line ) 
i 
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point p; 


b. x= offset % bytes per line ; 
p.y-offset/bytes per line ; 
return p ; 
н 
从 下 面 编译 器 的 输出 结果 可 以 看 到 ,只 有 一 次 除法 调用 。 实 际 上 ,这 个 程序 要 比 前 面 的 
getxy_v] 少 4 条 指令 ， 


注意 ; 并 不 是 对 所 有 的 编译 器 和 避 库 都 有 这 样 的 结果 。 


getxy v2 
SIMED г131,{ rá rld } :stack гї,1г 
КОТ r4,r0 ¡move p to rd 
MOV г0,т2 rÜ = bytes per line 
BL ..rt udiv {© rūri 2 5 ( r1/rO, ri% rū) 
STR rO,[r4, #4] iD. y = offset/bytes per line 
STR гі,[14,#0] :р.х= offset $ bytes per line 
LDMFD r13l,Í rá,pci ;return 


5.10.1 带 余 数 的 无 符号 重复 除法 


在 程序 中 ,同一 个 除数 的 除法 经 常会 出 现 很 多 次 。 在 前 面 的 例子 中 ,bytes_per_line 的 
值 在 整个 程序 中 都 是 固定 不 变 的 。 如 果 使 用 3 到 2 秒 卡 尔 华 标 表示 ,那么 就 可 以 使 用 同一 
个 除数 两 次 ， 

Cr yiz rt rz yy ) 
这 种 情况 下 ,使 用 cache 指令 中 的 值 1/z, 并 使 用 1/z 的 乘法 来 代替 除法 运算 ,效率 会 更 高 。 
如 何 来 实现 ,这 个 问题 将 在 下 一 小 节 讨 论 。 另 外 ,要 尽 可 能 使 用 int 类 型 的 运算 ,避免 使 用 

下 面 的 描述 将 更 加 偏重 于 从 数学 和 理论 的 角度 分 析 , 把 重复 除法 转换 成 乘法 运算 。 姐 

果 读 者 对 此 没有 兴趣 ,可 以 直接 跳 到 后 面 的 例 5.13, 


5.10.2 把 除 转换 为 乘 


将 使 用 下 面 的 符号 ,来 区 分 精确 的 数学 意义 上 的 除法 和 整 型 除法 运算 。 
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ә n/d 二 整数 被 分 成 4 份 ,结果 趋向 于 ОСУ СВА, 
9 nd 二 nn 被 4 除 之 后 的 余数 ,就 是 n 一 d ( n/d ); 


° 本 一 nd :一 真正 的 数学 意义 上 的 被 除 ， 
当 使 用 整 型 除法 时 ,最 容易 估算 q :的 值 的 方法 是 计算 22 /ad。 然 后 ,就 可 以 估算 n/d 
(n ( 27? /qd ) у/2® (5.1) 
在 执行 n 的 乘法 时 ,需要 精确 到 64 位 。 对 于 这 种 方法 ,会 出 现 如 下 问题 ， 
e 为 了 计算 22 /4 ,由 于 一 个 unsigned int 类 型 的 数据 放 不 下 27 ,编译 器 须 使 用 64 位 
的 long long 类 型 的 数 , 而 且 必须 指定 除法 为 (lull << 32)/d。 这 种 64 位 的 除法 比 


32 位 的 除法 执行 起 来 要 悍 得 多 。 
@ 如 果 d 碰巧 是 1 ,那么 22/d 就 不 再 适合 于 unsigned int 数据 类 型 。 


上 面 的 做 法 似乎 很 好 ,而且 解决 了 这 2 个 问题 。 那 么 ,我 们 再 来 看 一 下 用 (22 一 1)/d 代 
E 2g, 
i 
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s= Oxffffffff ul/d ; /* =€ 2-32— 1 )/d +*/ 
可 以 使 用 一 个 unsigned int 类 型 除法 来 计算 s, 我 们 知道 


2#— 1=sd + t (0 =< ted) (5.2) 
134 所 以 
32 
Ea, 这 里 0 < a =H 1 (5. 3) 


接着 ,计算 n/d КНЕ о: 
q= (unsigned int ) ( ( ( unsigned long long ) n * s) >> 32) 
数学 上 ,32 位 的 右 移 会 带 来 一 个 错误 es: 
q—numi)—e. 对 于 б< 1 (5.4) 
SR ; 为， 
СРС 6.5 
所 以 ,g EDF n/d 的 ,现在 


OS. ne 2 * Le e + e 2 (5, 6) 
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因此 
n/d— 2 < qsn/íd (5. 7) 


所 以 ,9 一 njd 或 49=(a/d) 一 1。 可 以 发 现 ,通过 计算 余数 гел qd (Oir 20 Ей 
易 的 。 下 面 的 代码 纠正 了 这 个 结果 : 
r=n- д *d, /* the remainder in the range 0 = г< 25d */ 
1Ё( г>= d) /* iF соггесї®1оп is required * / 
{ 
r--d; /* correct the remainder to the range 0 = r < d « / 
а ++; / ж correct the quotient x / 
} 
/[*nowq-n/dandz-7n$d +/ 


[Ë] 5.131 显示 实际 上 除法 是 如 何 转化 为 乘法 的 ， 

这 个 程序 完成 了 NN 个 元 素 的 数组 被 4 除 这 一 任务 。 首 先 ,计算 上 面 所 说 的 ; 值 , 然 后 
HRU з 来 代替 每 个 被 d 除 的 除法 。64 位 的 乘 是 很 容易 实现 的 ,因为 ARM 中 有 一 条 指令 
UMULL, 可 以 进行 2 个 32 位 数 相 葛 ,给 出 一 个 64 位 的 结果 。 


void scale { 
unsigned int x dest;  /« 目的 数据 * 7 
unsigned int ж sre;  /# 源 数据 */ 
unsigned int d; ada, 
unsigned int N ;) / * 数据 长 度 *7 


unsigned int s = ÜxFFEEFEEFu/d ; 
do 
{ 


unsigned int n,q,r ; 
п= ж (src ++ ), 
q= (unsigned int ) (((unsigned long long ) n ж s) >> 32); 


r"n-qesd; 
if(r—= d) / * if correction is required x / 
{ 

q ++; 


} 
ж (dest. tt = 可 | 
while ( — R); 
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这 里 假定 除数 和 被 除数 都 是 32 位 的 无 符号 整数 当然 ,使 用 32 位 乘法 进行 16 位 的 无 
符号 数 计算 ,或 者 使 用 128 位 乘法 进行 84 位 数 计算 ,运算 规则 是 -一样 的 。 可 以 为 特定 的 数 
据 选 择 最 窄 的 运算 宽度 。 如 果 数 据 是 16 位 的 ,那么 就 设置 ;一 (2 一 10 /4 ,然后 用 标准 的 
整 型 乘法 来 求 值 q。 


5.10.3 除数 是 常数 的 无 符号 除法 


如 果 除数 是 常数 ,那么 就 可 以 使 用 例 5.13 的 做 法 , 先 计 算 *= (2 — 10 ) je。 但 是 ,这 
里 有 一 个 更 加 有 效 的 方法 。ADS1. 2 编译 器 使 用 这 种 方法 来 合成 除数 是 常数 的 除法 。 

这 种 方法 是 使 用 一 个 足够 精确 的 接近 于 @ :的 数 , 这 样 就 可 以 给 出 精确 的 值 n/d, É 
里 使 用 下 面 的 数学 结论 (对 下 面 的 第 一 个 结论 ,可 参考 论文 : Torbjorn Granlund and Peter 
L. Montgomery, "Division by Invariant Integers Using Multiplication", in proceedings of 
the SIG - PLAN PLDI'94 Conference, June 1994. ); 
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如 时 2 ds 2-2 Доп/й=( ns) >> (М+#),(0<п<2”) (5.8) 
AUR 200 2 2%, ДА n/d=( ns +s) »» (NHR), O << п<2^) (5.9) 


因为 n=( n/d )d+r,(0 < r < 4—1) 
— Nt N+ 
可 得 па (а/д ns (5, 10) 


__ Nti 
136 (E Ds- (n/d) (a+) ma ET top Dan (5.11) 


4 


等 式 5. 10 和 5. 11 右边 的 范围 为 0 所 x 277, WFA 位 的 无 符号 整数 n 来 说 , 取 
№32, k WR 2d 2 ,然后 设置 := (299209), ME dem 2 HL п/а n 
>> (和 N 十 6 否则 ,ma= (s + s) >> (NR). Н, WE d EKE ауе 
运算 来 代替 除法 ， 

【 例 5, 14】 udiv by const 函数 测试 了 上 述 方法 ， 

在 这 里 ,d 是 一 个 固定 的 常数 ,而 不 是 一 个 变量 ， 可 以 预先 计算 好 s 和 的 信 , 运 行 时 
只 须 包 含 与 实际 值 4 相关 的 计算 。 | 


unsigned int udiv by const ( unsigned int n,unsigned int d) 
{ 
unsigned int в, k,q, 


BEd 0«/ 
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В k ВСІ <e k) xz d< (1 << (k+1)) +/ 
for {k=0 dd/2 >= (lu ec k ) jk H 3, 
if td== lu << К) 
A 
/ * 用 移 位 来 执行 除法 + 7 
return n >> К; 


} 


ГКО Е С << k)< d< (1 << (k+1)) +/ 
= = (unsigned int) ( ( (1011 << (32 +k) ) + (lull < k) ) /d) ; 


if ( ( unsigned long long )s*d >= (ull << (32 + k 5) 
{ 

/*n/d-(n« я) >> (32 + k) «/ 
а= ( unsigned int ) ( ( ( unsigned long long) n* 8 ) »» 32) | 
return q >> К 


) 


/*n/de-(ínssts) >> ( 32 +k) ж / 
q = ( unsigned int ) ( ( ( unsigned long long ) n * 5 +в) >> 32) 
return q >> ку 


) 

如 果 事 先知 道 n 的 范围 为 0 和 nr< 2 ,相当 于 一 个 正 的 整 型 数 ,那么 就 无 须 操 心 多 种 不 
同 的 情况 。 每 次 上 加 1 也 不 用 担心 * 是 否 会 溢出 。 取 М=31,5&Ж E HUE 27 <4<2,% 
HER з= GU EZ-D/a4A m/d= (ns) >> (М+%), 


5.10.4 除数 是 常数 的 有 符号 除法 


可 使 用 与 5, 10. 3 小 节 类 似 的 思想 和 运算 规则 来 解决 除数 是 有 符号 常数 的 除法 。 如 果 
d < 0, 那 么 先进 行 除数 是 |d| 的 除法 ,然后 再 修正 符 导 位 。 将 5. 10. 3 小 节 中 的 第 一 个 数学 
结论 延伸 到 有 符号 数 n MR 0 和 27 d: 2 2.384, 


n/d= (ns) >> (М+-Ё),(0<л<2*) (5, 12) 
n/d= (ns) >> (N+ b)+1,( — 2 ino) (5.13) 


对 32 ДОНАУ а, №31, BE E31 ,并 满足 277 dc^, ЖЖ RT UU Bee s 
一 个 满足 上 述 关 系 的 32 位 无 符号 数 s= (2 -十 2:)/d。 要 特别 注意 32 位 的 有 符号 数 ”和 
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32 位 的 无 符号 数 з ШЖ ,这 里 使 用 一 个 signed long long 类 型 的 乘法 结合 符号 位 修正 ,来 实 
现 这 个 乘法 运算 。 
С 5.15] 显示 如 何 实现 除数 是 有 符号 数 d ЮК. 
实际 上 ,在 编译 时 已 先 计算 好 了 名 和 的 值 ,运行 时 只 须 进 行 对 特定 值 d 的 涉及 于 的 和 运算。 
int sdiv by const(int n, int d) 
{ 
int SG 
unsigned int D, 


/* йе n ч 的 绝对 慎 , Big SI= 0 < / 


if (й>0) 
í 
D= (unsigned int)d; [*1x D = Üx7?FFFFFFF x/ 
) 
else 
{ 
D = (unsigned int) - d; /*1s; D = йх80000000 x / 


) 


/ x 首先 找到 kk, 使 得 (1 << k) < D< (1 << (kt 10)) x / 
for (k= 0,D/27 = (1u << kk tt); 


if (D== lu << К) 
í 
/* 用 移 位 来 执行 * / 


q7n»» 31; /*Üü,if n0, —1,if п<0 +/ 
а=п + ((unsigned)g >> (32 - X)); / * insert rounding */ 
q=q >> k; Г w divide x / 
if (d<0) 
1 
可 = = 9; / * correct sign + / 
j 
return 4; 


ѓ * Next find s in the range Ox, S, OXFFFFFFEF x / 












5 离 效 的 C 编程 





/ + Note that k here is one smaller than the k in the equation #/ 
s= (intY(((lull << (31 + (k * 100) + (1011 ce (k + 1)))/D), 


if (s = 0) 
{ 
q= (int)(((signed long long)n ж s) >> 32); 
) 
else 
i 
/* (unsigned)s = (signed)s + (1 << 32) «/ 
ч=п + (int)(((signed long long)n * s) >> 32); 
} 
q=q >> k; 


DUILLILLIDIDOId D JUSIOWI 5 


/ * if п<20 then the formula requires us to add опе x / 
q += (unsiged)n >> 31; 


/ * i£ d was negative we must correct the sign + / 
if (й<0) 


d= - E: 
139 


return qi 


; 
7. 3 节 将 介绍 如 何 用 汇编 语言 来 实现 高 效 的 除法 运算 。 


# Ж Ж 

e 尽 可 能 避免 合用 除法 。 对 环形 缓冲 区 的 处 理 可 以 不 用 除法 ， 

e 如 果 不 能 避免 除法 运算 ,那么 尽 可 能 考虑 使 用 除法 程序 同时 产生 商 n/d ER 
d 的 好 处 。 | 

9 对 于 重复 对 同一 除数 d 的 除法 ,预先 计算 好 s—(2'—10/d4, ШЖ ПШ s 80 25 {Ж 
法 来 代替 除 以 a 的 位 无 符号 整数 除法 。 

€ 对 于 无 符号 被 除数 n2" ,除数 是 无 符号 常数 a 的 除法 ,可 以 找到 一 个 32 位 的 无 符 
号 数 * 和 移 位 ,满足 n/d 或 是 (n >>(N 十 有 ) ,或 是 (ns 十 s) >> (NH4), Sp 
是 哪 一 个 ,由 d 决定。 对 有 符号 的 除法 ,也 有 类 似 的 结果 ， 
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5.11 浮 点 运算 


大 多 数 ARM 处 理 器 硬件 上 并 不 支持 浮 点 运算 ,这 样 在 一 个 对 价格 敏感 的 炭 人 趟 应 用 
系统 中 ,可 节省 空间 和 降低 功 耗 。 除 了 硬件 向 量 泽 点 累加 器 УЕР 和 ARM7500FRER F 002 
点 累加 器 FPA 外 ,C 编译 器 必须 在 软件 上 提供 浮 点 支持 。 

实际 上 ,这 意味 着 忆 编 译 喘 要 把 每 一 个 浮 点 操作 转换 成 一 个 子 程序 的 调用 。C 库 函 数 
中 的 子 程序 使 用 整 型 运算 来 模拟 浮 点 操作 。 这 些 代 码 是 用 高 度 优 化 的 汇编 语言 编写 的 。 尽 
管 如 此 , 浮 点 运算 执行 起 来 还 是 要 比 相应 整 型 运算 慢 得 多 。 

如 果 要 快速 执行 并 得 到 小 数 的 值 ,那么 就 应 使 用 定点 (fixed - point; 或 者 块 浮动 (block 
-floating) 算 法 。 在 音频 、 视 频 等 许多 数字 信号 处 理 中 ,经 常会 用 到 小 数 /分 数 (fractionat 
value)。 这 是 软件 编程 的 一 个 很 大 也 很 重要 的 方面 ,所 以 本 书 专门 用 一 章 ~… 一 第 8 章 ,来 讲 
述 在 ARM 上 的 数字 信和 号 处 理 方法 。 要 想 获 得 最 好 的 性 能 ,就 要 用 汇编 语言 来 实现 算法 ( 见 
第 8 EMT) 


5.12 ARRAMA CSA 
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外 许多 编译 器 允许 在 C ШШЕ Р ЫРАК. Ша КАЕ К. ИШ ЕЙ 
支持 道 常 不 能 有 效 使 用 的 ARM 指令 和 优化 方法 。 本 节 的 例子 将 在 armec P ERE P В 
汇编 。 

不 要 把 内 人 崩 汇编 程序 和 汇编 器 armasm 或 者 gas EM, PHIL AS C 编译 器 的 一 部 
分 。C 编译 器 仍然 执行 寄存 器 分 配 .函数 进入 和 退出 等 。 同 时 编译 器 也 会 试图 优化 所 写 的 
ARER RA AAR (debug mode) 分 开 优化 。 尽 管 C 代码 编译 输出 的 结果 在 功能 上 
与 内 赂 汇编 程序 是 等 价 的 ,但 实际 上 它们 是 不 完全 相同 的 ， 

内 联 浮 数 和 内 嵌 汇 编 最 大 的 好 处 是 ,可 以 实现 一 些 在 忆 语 言 部 分 中 通常 难 以 完成 的 操 
作 。 使 用 内 联 函 数 要 比 使 用 # define 宏 定 义 更 好 ,因为 后 者 不 检查 通 数 参数 和 返回 值 的 
类 型 。 

来 看 一 个 在 许多 语音 处 理 算法 中 经 常 使 用 的 运算 , 愧 和 双 倍 秉 累 加 。 这 是 对 16 位 的 有 
符号 数 xz 和 与 32 位 的 累加 值 e 进行 = 十 2zy 运算 。 另外 ,所 有 的 操作 如 果 超 过 32 位 的 
范围 , 则 将 取 最 接近 的 值 ( 愧 和 运算 )。z 和 y 是 Q15 定点 整数 ,因为 它们 呈现 的 值 是 12" 
和 y2 “。 类 似 地 ,a 是 Q31 定点 整数 ,因为 它 皇 现 的 值 是 а?-", 
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使 用 内 联 函 数 qmac 来 实现 这 个 新 的 操作 ， 
. inline int qmac vi(int a, int x, int ү) = 
i б 
inti = 
O 

i= хк yií/* this multiplication cannot saturate x / x 
if {i> = 0) @ 

{ Q 
i*x* y is positive */ 3 

i 2 zy 

if (1<й) e 


{ 
/ ж the doubling saturated x / 
і = Ox7FFFFFEF; 
} 
if (a + i< a) 
{ 
/ ж the addition saturated * / 
return ОХТЕЕЕЕЕЕЕ ; 
} 
returna + і; 
} 
/*X* y is negative so the doubling can't saturate ж / 
if (a + 2+* 1 > a) 
{ 
/ ж the accumulate saturated x / 
return — 0х80000000; 
} 
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returia + 2*1; 


} 


现在 可 以 用 这 个 新 的 操作 来 实现 一 个 饱和 相关 性 (saturating correlation) T., WATS 
说 ,就 是 饱和 计算 a= Ty + ubi 十 Z2XN- lNO " 

int saL correlate vl(short * x. short x y, unsigned int N) 

( 


int a= 0; 
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do 
{ 
а= опас чі(а, «(x tt), * (ytt) ); 
} while ( — №; 
return a; 


| 


编译 器 会 用 内 联 代码 来 代替 每 个 qmac 函数 调用 。 换 名 话说 ,就 是 插 和 人 代码 来 代替 调 
用 атас, атас C 语 言 实现 需要 多 条 if 语句 ,效率 并 不 很 高 。 可 以 用 部 分 汇编 语言 写 出 
效率 更 高 的 代码 ,因为 C 编译 器 下 的 内 嵌 汇 编 功 能 允许 在 内 帐 的 C 函数 中 使 用 汇编 。 


[5.16] 显示 使 用 内 嵌 汇 编 高 效 实现 gmac 函数 。 
这 个 例子 支持 armee 和 gee 2 种 内 嵌 汇 编 格式 。 它 们 有 较 大 的 差异 。 在 gec 模式 下 ， 
“cc" 告 知 编译 器 指令 需要 读 或 者 写 条 件 代码 标志 ,详细 信息 可 参考 armee 或 gee 手册 。 
. inline int omac_v2(int a, int x, int y) 
{ 
int i; 


const int mask = 0х60000000; 


i-2x*y 
# ifdef  ARMCC VERSION / ж check for the armcc compiler * / 
. asm 
{ 
ADS 1,1,1 Z x double x / 
EORVS i, mask, i, ASR 31 / * saturate the double * / 
ADDS а, а, i /*accumulate ж / 
EORVS a, mask, a, ASR 31 / * saturate the accumulate x / 
} 
# endif 
# ifdef __GNUC — / * check for the gec compiler + / 
asm("ADDS #0,%1,%2 ", cr (iy "r (j) Uy" (3): 7ee"); 
asm("EORVS kO, %1, %2, ASR#31 ";" =r" (1), г (шавк), "г" (1); ос); 
asm("ADDG %0,%1,%2 "=g" (uro (аа "r" (сс); 
asm("EDRVS %0,%1,%2,А58 31 ";" =r" (а): г (шавк), "г" (а): сс"), 
# endif I 
return а; 


) 
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这 个 内 馈 代 码 把 主 循环 体 中 的 指令 从 19 条 减少 到 9 Ж. 
[55.1710 假设 使 用 带 有 ARMv5E 扩 展 指令 的 ARMIE 处 理 器 ,使 用 新 的 ARMvVSE 
指令 重 写 атас ЩЖ, 


. inline int qmac v3(int a, int x, int у) 


{ 


int 1; 


. asm 
{ 

SMULBB L, x, Y /* multiply */ 

QDADD а, a, i ¿»double + saturate + accumulate + saturate + / 


} 


BuiuuuuoiBold O {чәјошэ $ 


return aj 
} 
这 时 , 主 循环 体 编译 只 用 了 6 条 指令 : 

sat correlate v3 s 
STR zi4,[r13,3  - 4]! ; stack lr 
MOV г12, ЊО {а= 0 

sat v3 loop 
LDRSH :3,[:0],#2 ;r3= w (хі) 143 
LDRSH rl4,[r1], #2 . ;rl4= x (ytt) 
SUBS r2,r2, 1 ;N-- and set flags 
SMULBB т3ї,г3,г14 sr3=r3 x rld 
QDADD — r12,r12,r3 {а = sat(a + sat(2 ж r3)) 
BNE Bat v1 loop ;if (N!= 0) goto loop 
MOV rü,r12 }тй=а 
LDR pe, [713], 44 ;return го 


还 有 其 它 一 些 通 常 不 支持 的 指令 ,包括 协 处 理 器 指令 , 例 5. 18 说 明了 如 何 使 用 协 处 
Bie. 


СИ 5.181 通过 写 人 协 处 理 器 15(CP15) 来 清空 指令 cache, 
可 使 用 类 似 的 代码 来 访问 其 它 的 协 处 理 回 。 


void flush Icache(void) 


{ 
H ifdef __ARMOC VERSION / *armcc + / 
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| 








. asm { MCR p15, 0, 0, c7, c5, 0 ) 
# endif 
Ë ifdef _ GNUC /*goe * / 

asm ( "MCR р15, 0, r0, c7, c5, 0" 5, 
# endif 
} 


# PUEGSBERIPHEOLAM 

e (EHE SORS НА ЭПИ АЕК Ж C 编译 器 不 支持 的 基本 操作 ， 

e 使 用 内 典 汇 编 可 以 利用 到 С 编译 器 不 支持 的 ARM 拉 令 ,比如 协 处 理 器 指令 或 者 
ARMvSE 扩展 指令 。 


5.13 移植 问题 


这 里 是 把 代码 从 其 它 处 理 器 移植 到 ARM 上 可 能 会 碰 到 的 一 些 问 题 的 总 结 。 

€ char 28783. 在 ARM 上 ,默认 char 是 无 符号 的 ,而 不 像 许多 其 它 处理 器 那样 认为 是 
有 符号 的 。 一 个 经 常会 碰 到 的 问题 是 ,在 循环 体 中 ,使 用 一 个 char 类 型 的 循环 计数 
值 i, 循 环 继续 的 条 忻 是 (R0. XXE ARM 上 就 变 成 了 无 穷 的 循环 。 在 这 种 情况 下 ， 
armee 会 出 现 一 个 “于 符号 数 与 0 比较 *Cunsigned comparison with zero) 的 警告。 
ЯЗ ЯЙ НЕЕ pt TN E Ө. char 变 成 有 符号 的 类 型 ,或 者 把 循环 计数 值 改 成 inc ЖШ, 
来 解决 这 个 问题 。 

@ 山上 尖 型 ”一 些 考 的 体系 结 档 的 int 类 型 是 36 位 的 , 当 这 些 16 位 的 int 类 型 需要 移 
到 АКМ 的 32 位 int 类 型 上 时 (尽管 这 种 情况 不 多 抑 ) ,可 能 会 带 来 一 些 问 题 。 因 为 
表达 式 存 求 值 前 已 经 被 转换 成 int 类型, 因此, 如果 i 一 0x1000, 那 么 表达 式 i= = 
Oxf000 在 16 位 的 机 器 上 是 真 {true) ,而 在 32 位 的 机 器 上 却 是 假 (false)。 

ӨЛСЕ DAERA TIER BERE RE short 和 int 类 型 数据 的 
Е. CET STELE HERE HE ST EE RI BER Ñin ТЕ, HER E m P char + 
转换 成 int * 。 直 至 ARMSTE, ARM 体系 结构 都 不 支持 边界 不 对 齐 的 指针 。 为 
本 发 现 这 样 的 问题 ,在 ARM 上 运行 的 程序 要 使 用 边界 检查 ， 出 如 ,可 以 配置 
ARM720T, 把 边界 不对 齐 的 访问 定义 为 数据 异常 。 

ФРИДОН) C 代码 可 以 对 内 存 系统 的 字 节 排列 方式 进行 假设 , 比 
如 ,把 char * 转换 成 int * 。 如 果 在 ARM 上 配置 的 字 节 排列 方式 与 代码 预期 的 一 


* 在 16 位 机 器 上 ,i 的 补 码 晤 9xf000; 而 在 32 位 机 器 上 ,i 的 补 码 是 0xfffff000。 一 一 译 者 注 
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样 ,那么 就 不 会 有 什么 问题 ， ЁЛ, 就 要 改写 代码 ,使 之 不 依赖 字 节 排列 方式 。 更 多 
细节 见 5.9 3, 

e {ЛИД arme 编译 器 传递 参数 是 罕 的 (narrow) ,意味 着 数据 鉴 笔 小 到 参数 类 型 
的 范围 。 如 果 国 数 原 型 不 正确 ,那么 国 熬 可 能 会 返回 错误 的 结果 ，。 其 它 编译 器 传递 
参数 是 宽 的 (wide) ,即使 函数 原型 不 正确 ,也 可 能 会 产生 正确 的 结果 。 应 该 总 是 使 
H ANSI 原型 ， 

e fi bitfield ЕН ЕЛА RT (na HER SE НЕО ER. 
如 果 C 代码 假定 是 以 固定 的 次 序 来 编排 各 个 位 的 ,那么 这 个 代码 就 不 是 可 移植 的 。 

e ff 3 (enumeration) B9f& WAR enum 是 可 移植 的 ,但 不 同 的 编译 器 会 对 一 个 校 
举 类 型 分 配 不 同 数目 的 字 节 。gee 编译 器 分 配 4 字 节 给 一 个 校 举 类 型 。 如 果 一 个 极 
举 只 有 8 位 的 值 , 则 armec 编译 器 只 分 配 | 字 节 。 所 以 ,如 果 在 一 个 API 结构 体内 
使 用 了 校 举 类 型 ,那么 就 不 能 在 不 同 的 编译 器 之 间 对 代码 和 库 进 行 交叉 连接 。 

e "il d 在 CC 代码 中 使 用 内 苦 汇 编 会 降低 不 同体 系 结构 之 间 代 码 的 可 移植 性 。 
可 以 把 内 嵌 汇 编 分 成 几 个 小 的 容易 被 苦 换 的 内 幅 函 数 ,用 普通 语言 来 实现 这 些 函 
数 ,作为 参考 ,对 用 在 其 它 体系 结 构 上 是 很 有 帮助 的 。 

Ф volatile XRF WARM 的 存储 器 映像 (memory -mapped) 外 设 端口 类 型 定义 要 
使 用 volatile 关键 字 。 这 个 关键 字 阻止 编译 器 优化 相关 的 存储 器 访问 ,也 保证 编译 
带 生 成 正确 类 型 的 数据 访问 。 例 如 ,如 果 定 义 了 一 个 存储 器 位 置 (外 设 映 口 ) 是 vol- 
atile short 类 型 ,那么 编译 器 将 会 使 用 16 位 的 load-store 指令 LDRSH 和 STRH 来 
WHY. 





5.14 总 结 





通过 一 定 的 风格 来 编写 C 程序 ,可 以 帮助 C 编译 器 生成 执行 速度 更 快 的 ARM RE, 
对 性 能 有 严格 要 求 的 应 用 ,经 常会 包含 一 些 对 系统 性 能 起 决定 作用 的 关键 程序 ,那么 就 要 使 
用 本 章 所 列举 的 方法 重点 编写 这 些 程序 。 

这 里 是 本 章 涉 及 的 性 能 关键 点 ， 

对 局 部 变量 、 函 数 参 数 和 返回 值 要 使 用 signed 和 unsigned int 类 型 。 这 样 可 以 避免 

类 型 转换 ,而 且 可 高 效 地 使 用 ARM 的 32 位 数据 操作 指令 。 
@ 最 高 效 的 循环 体形 式 是 减 计数 到 零 (counts down to zero) Bl do - while Ж. 
e 展开 重要 的 循环 来 减 小 特 环 开销 。 


+ 使 用 volatile 关键 字 还 可 以 避免 cache 的 影响 。- 一 译 者 注 
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e 不 要 依赖 编译 器 来 优化 掉 重 复 的 储存 器 访问 ， 指 针 别 名 会 阻止 编译 器 的 这 种 优化 。 

e 尽 可 能 把 函数 参数 的 个 数 限制 在 4 个 以 内 。 ПИА АНА ЯНЕ, 那么 
函数 调用 就 会 快 得 多 

e 按 元 素 尺寸 从 小 到 大 排列 的 方法 来 安排 结构 体 ,特别 是 在 thumb 模式 下 编译 。 

e 不 要 使 用 位 域 ,可 以 用 掩 码 和 迎 辑 操作 来 替代 。 

避免 除法 ,可 以 用 倒数 的 革 法 来 替代 ， 

@ 避免 边界 不 对 齐 的 数据 。 如 果 数 据 有 可 能 边界 不 对 齐 ,那么 就 更 使 用 char х 指针 类 
型 来 访问 。 

e C 编译 器 中 使 用 内 芯 汇 编 可 以 利用 到 C 编译 器 本 来 不 支持 的 指令 或 者 优化 。 


第 上 = 
ARM 汇编 与 优化 
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在 一 个 嵌入 式 软件 系统 中 ,经 常 包含 一 些 决定 整个 系统 性 能 的 关键 程序 , 遂 过 优化 这 些 
程序 ,可 以 降低 系统 的 功 耗 和 实时 操作 所 需 的 时 钟 频率 。 优 化 可 以 把 一 个 不 可 行 的 系统 变 
成 可 行 , 也 可 以 把 一 个 毫 无 竞争 力 的 系统 变 得 极 有 竞争 力 。 
如 果 认 真 地 使 用 第 5 章 中 介绍 的 方法 来 编写 C 代码 ,那么 就 会 获得 相对 较 高 的 程序 执 
行 效率 。 但 苦 要 获得 最 好 的 性 能 ,就 要 通过 手写 汇编 来 优化 那些 关键 程序 。 手工 编写 汇编 
代码 ,可 以 直接 控制 在 C 语 言 编程 时 不 能 有 效 使 用 的 3 个 优化 工具 : 
e OH We Bm) S DR IEEE EEG. ARM 指令 
执行 是 在 指令 流水 线 中 进行 的 ,所 以 一 条 指令 执行 的 时 间 会 受 其 相 邻 指令 的 影响 ， 
在 6.3 节 中 将 着 重 讨论 这 个 问题 。 

e FFRESA ”决定 如 何 分 配 变 量 给 ARM 寄存 器 或 者 堆栈 ,以 获得 最 好 的 性 能 。 H 
标 是 要 使 访问 存储 器 的 次 数 旗 到 最 少 , 详 见 6.4 节 。 

e &ÍFfT TARR ARM 条 件 代 码 和 条 件 指令 的 全 部 功能 , 详 见 6.5 节 , 


优化 汇编 程序 需要 付出 很 多 额外 的 努 方 ,因而 不 必 典 力 去 优化 那些 对 性 能 影响 不 大 的 
程序 。 花 时 间 去 优化 一 个 程序 ,其 实 也 会 有 一 些 额外 的 收获 ,比如 对 运算 法 则 ,程序 瓶 颖 及 
数据 流 等 问题 都 会 有 更 好 的 理解 。 

6. 1 节 将 首先 介绍 ARM 上 的 汇编 程序 编程 方法 ,说 明了 如 何 把 一 个 C 函数 替换 为 - 
个 可 以 优化 的 汇编 函数 。 

然后 描述 了 针对 ARM 汇编 的 一 般 优化 技术 。 这 里 不 再 专门 论述 Thumb 汇编 ,因为 使 
用 32 位 数据 总 线 时 ,32 位 的 ARM 汇编 会 有 更 好 的 性 能 。Thumb 对 减 小 C 代码 编译 后 的 
目标 代码 大 小 是 最 有 帮助 的 ,而 在 16 位 数据 总 线 上 ,对 性 能 和 程序 执行 效率 没有 太 大 影响 ， 
当然 ,这 里 涉及 的 许多 方法 对 ARM 和 Thumb 是 同样 有 效 的 ， 

对 一 个 程序 最 好 的 优化 是 应 根据 目标 硬件 板 上 ARM 核 的 不 同 而 改变 优化 方法 ,特别 
是 针对 数字 信和 号 处 理 ( 在 第 8 章 将 详细 讨论 )。 当 然 ,也 可 以 写 出 一 个 对 所 有 ARM Sota 
当 有 效 的 代码 。 为 了 保持 一 致 ,本 章 所 有 例子 都 使 用 针对 ARM9TDMI 的 优化 和 周期 计 
数 。 这 些 例子 也 可 以 有 效 地 运行 在 从 ARM7TDMI 到 ARM10E 的 所 有 ARM # E, 


6.1 编写 汇编 代码 


OC 





本 节 给 出 的 例子 说 明了 如 何 缩 写 基本 的 汇编 代码 。 这 里 ,假定 读者 熟悉 第 3 Hp 


ARM 指令 集 (完整 的 指令 集 参见 附录 А), Ш 5.4 节 中 描述 的 ARM 和 Thumb 过 程 调 


. 这 里 的 指令 调整 是 指出 人 工 或 编译 落 在 代码 执行 之 前 所 做 的 更 态 指令 流 调 整 ,与 代码 执行 时 由 处 理 器 完成 的 拘 令 动 
态 测度 其 不 同 的 。 一 一 译 者 注 | 
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用 标准 (ATPCS) 。 | 

与 本 书 的 其 它 部 分 一 样 ,本 章 所 有 例子 都 使 用 ARM 宏 汇编 器 armasmCX T armasm 
语法 和 参考 见 附录 A 4 节 ), 也 可 以 使 用 GNU 汇编 器 gas (关于 GNU 汇编 语法 见 A. 5 
$), 


【 例 6.1】 描述 通常 汇编 优化 的 第 一 步 ;如 何 把 一 个 C 函数 转换 为 汇编 函数 。 
看 下 面 一 个 简单 的 程序 main, c: 打 印 整 数 0 一 9 的 平方 数 。 


# include —stdio. h> 


int square(int i); 


int main(void) 


{ 


int i; 


for (i-0,i-10,i1* +) 

{ 

printf("Square of $d is % О\п”, і, square(i)); 
) | 
) 


int square{ int i) 
{ 


return i* i; 


) 


来 看 一 下 如 何 将 square 函数 改写 成 执行 结果 相同 的 汇编 函数 。 去 除 square 中 除 声 明 
{第 2 行 ) 以 外 的 其 它 C 代码 ,创建 一 个 新 的 C 文件 mainl. ce, 然后 添加 armasm 汇编 文件 
square. $s。 和 沪 编 文件 内 容 如 下 ， 


AREA |.text|. CODE, READONLY 
EXPORT square 


sint gquare(int i) 
square 
MUL rl, r0, rÜ 1z1 = rQ Xx rū 
MOV ro, rl г) = гі 
MOV рс, ir return ro 
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END 


保留 字 AREA (p T (RET TERT DUREE Et (section), WEERA T dE Н ЗЕ ПЕ 
符 作 为 标号 或 名 字 ,那么 最 好 用 2 条 重 直 的 线 把 名 宇 括 起 来 ;否则 ,许多 非 河 拉 伯 数字 的 字 
符 就 会 表示 其 它 一 些 特 萄 的 合 闵 。 在 上 面 的 代码 中 ,定义 了 一 个 名 为 . text BB HERE, 

保留 字 EXPORT 表示 符号 square 可 以 用 作 外 部 连接 。 在 第 6 行 定义 了 符号 square (Е 
为 一 个 代码 标号 。 

EE: armasm g SEES iE X HEX ЕХ. 

square 被 调用 时 ,参数 传递 由 AATPCS( 见 5.4 节 ) 定 义 。 输 入 参数 通过 寄存 器 r0 传递 ， 
最 后 返回 值 也 通过 寄存 器 70 ER), ARM 乘法 指令 有 一 个 限制 ,就 是 目标 寄存 器 不 能 和 第 
一 个 参数 寄存 内 相同 ,所 以 先 把 乘法 结果 放 到 r1, 然 后 再 送 到 го, 

保留 字 END 表示 汇编 文件 的 结尾 GERNER. 

下 面 的 命令 举例 说 明了 如 何 用 命令 行 工 具 来 生成 这 个 例子 的 可 执行 目标 文件 。 


armcc - c mainl.c 


opine sodo[o^eq WEAS гу 


armasm squsre. s 


armlink - o mainl.axf mainl.o square. о 


例 6. 1 必须 用 ARM 代码 方式 (32 位 ) 来 编译 ,才能 正确 执行 。 如 果 以 Thumb HEY 
A6 位 ?来 编译 ,那么 汇编 子 程序 必须 使 用 BX 指令 来 返回 。 


[916.2] 当 从 以 Thumb 方式 编译 的 C 程序 中 调用 ARM 汇编 代码 时 , 例 6. 1 的 汇编 
代码 惟一 要 改变 的 是 把 返回 指令 改 用 BX. BX 指令 会 根据 Ir 寄存 器 的 位 0 来 判断 是 返回 
到 ARM, 还 是 返回 到 Thumb 状态 。 因 此 这 个 子 程序 既 可 以 在 ARM 状态 下 ,也 可 以 在 
Thumb 状态 下 被 调用 。 只 要 处 理 器 支持 BX 指令 (ARMv4T 及 其 以 上 ) ,就 可 用 BX lr 来 代 
# MOV pc, lr。 创 建 一 个 新 的 汇编 文件 square2, s ЩЕ; 


AREA |. texti, CODE, READONLY 
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EXPORT square 


tint square(int i) 
square 
MUL rl, rÜ, rů El = rÜ X r0 
MOV rÜ, ri . 1T0 = rl 
BX lr | return гў 
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END 


使 用 Thumb C 编译 器 tcc 来 构建 这 个 例子 ,设置 交 义 工作 方式 允许 ,这 样 和 连接 器 就 可 
以 允许 Thumb C 代码 调用 ARM 汇编 代 和 码 。 使 用 下 面 的 命令 来 重建 这 个 例子 : 
tcc - cmainl.c 


armasm - apcs/interwork square?.s 


arglink - o main2.axf mainl.o square2.0 

[56.313 说 明 如 何在 一 个 汇编 程序 里 调用 一 个 子 程序 。 

把 例 6. 1 整个 程序 (包括 main) 转 换 成 汇编 程序 ,然后 调用 C Ж SS 392 ріпи 子 程 
序 。 创 建 一 个 新 的 汇编 文件 main3. s, 内 容 如 下 ， 
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AREA |.texti, CODE, READONLY 

EXPORT main 

IMPORT |LibS$Request $$armlib|, WEAK 

IMPORT . main +С library entry 

IMPORT printf :prints to stdout 
i RN 4 


; int main(void) 


, 151 
main 
STHFD apl, (i, 1r] 
МОУ і, #0 
loop 
ADR rÜ, print string 
MOV rl,i 
МЛ, г2, 1,1 
BE printf 
ADD i, i, #1 
CHP i, #10 
ELT loop 
IDD > spl. {1, po) 


print string 
DCB "Square of &d is &din", 0 








ARM BASURA 


END 


这 里 ,使 用 了 一 个 新 的 保留 字 1MPORT, 以 声明 其 它 文件 中 定义 的 标号 。 引 入 的 标号 
Lib $$Request $ $armlib 表示 要 求 连接 器 连接 一 个 标准 的 ARM C E, WEAK 表示 如 果 这 
个 标 导 在 连接 时 找 不 到 ,那么 制止 连接 器 给 出 一 个 错误 。 如 果 标 号 找 术 到 ,那么 它 的 值 将 会 
是 0。 引 人 标号 _main 是 忆 库 初始 化 代码 的 开始 。 如 果 定 义 了 自己 的 main ЖАЙА ЖЕ 
引信 这 些 标号 ,在 C 代码 中 定义 的 main 将 自动 引 人 这 些 标号 。 引 入 printf 将 允许 程序 去 调 
Ri C Ж А. 

保留 字 RN 表示 允许 使 用 害 存 器 的 名 字 ( 不 是 寡 存 器 编导 ) 。 在 这 里 ,定义 1 作为 害 存 
器 rt 的 赫 换 名 字 。 使 用 寄存 器 名 字 将 使 代码 更 具 可 读 性 ,而 且 对 以 后 改变 变量 在 寄存 器 中 
的 分 配 也 会 容易 得 多 。 

在 ATPCS 中 ,函数 必须 保护 寡 存 器 fd 一 rll 和 sp。 由 于 会 改变 i(r4) ,并 在 调用 printf 
时 会 改变 Ir 的 值 ,因此 ,在 函数 的 开始 ,使 用 STMFD 指令 来 把 这 2 个 寄存 器 的 值 压 人 堆 
栈 ;LDMFD 指令 再 从 堆栈 恢复 这 些 害 存 器 ,并 且 通 过 把 返回 地址 写 信 pe 来 返回 。 

保留 字 DCB 用 来 定义 一 个 字符 串 UE UR SARI IPTE GE, 

使 用 下 面 的 命令 行 脚本 来 构建 这 个 例子 ， 


armasm ша1п3.+ 


armlink - o main3.axf main3, o 


注意 例 6. 3 也 假定 代码 从 ARM 状态 被 调用 。 如 果 代 码 要 像 例 6, 2 那样 可 以 从 
Thumb 状态 下 被 调用 ,那么 必须 能 够 返 河 到 Thumb 状态 。 对 于 ARMv5 以 前 的 体系 结构 ， 
必须 使 用 BX 指令 来 返回 。 可 以 把 最 后 一 条 指令 替换 为 下 面 2 条 指令 ， 

LDMFD SPl,(i,LR] 

ВХ ТА 


最 后 ,来 看 一 个 例子 ,这 个 例子 传递 了 多 于 4 个 的 函数 参数 。ATPCS 把 前 4 个 参数 放 
在 寄存 内 r0~r3。 其 余 的 参数 存放 在 堆栈 里 ， 


[56.4] 定义 一 个 函数 satnof, 可 以 求 任意 数目 的 整数 的 和 。 
参数 是 求 和 整数 的 个 数 和 一 囊 求 和 的 整数 。 函 数 sumof 用 汇编 语言 编写 ,可 以 接受 任 
意 多 个 数 旭 的 参数 。 把 这 个 例子 的 C 代码 部 分 放 在 文件 main4. с. 


# include «stdio. h> 
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/+ 下 是 列表 中 求 和 整数 的 个 数 ,，, + / 
int sumof(int N, ...); 
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int main(void) 
{ 
printf("Empty sum = & din", sumof(0)); 
printf("1 = dAn", sumof(1,1)); 
printf("1*22 &dn", sumof(2,1,2)); 
printf("14243- & din", sumof(3,1,2,3)); 
printf("142-4344- kdn", sumof( 4,1,2,3,4)); 
printf('1*24344-45- San”, sunof(5,1,2,3,4,5)); 
printf("1*243444546- $n", sumof(6,1,2,3,4,5,6)); 
) 


下 一 步 在 汇编 文件 sumof. s 中 定义 sumof 函数 ， 


AREA |. text, CODE, READONLY 


EXPORT sumof 
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N ЕН 0 ,number of elements to sum 
sum EN 1 Current sum 
pint gumof(int B, ...) 
sumof 
SUBS N, N, H1 ido we have one element 153 
MOVLT sun, #0 ;no elements to sum! 
SUBS N, N, #1 ido we have two elements 
ADDGE Sum, sum, rz 
SUBS N N, #1., {Чо we have three elements 
ADDGE , sum, sum, r3 
MOV r2, sp top of stack 
leop 
SUBS N, N, #1 sdo we have another element 
LDMGEFD — r2], {r3} ;load from the stack 
ADDGE Sum, sum, r3 
BGE loop 
MOV rO, sum 
MOV po, lr return ro 
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代码 把 需要 求 和 整数 的 剩余 数 日 计数 保存 在 N。 前 3 个 值 在 寄存 器 rl'r2 及 r3 р, 
下 的 值 放 在 堆栈 。 可 以 用 下 面 的 命令 行 来 构建 这 个 例子 : 


armco - c maind.c 





armasm sumof.s 


armlink - o main4.axf maind. о gumof.o 


6.2 性 能 分 析 和 周期 计数 





任何 优化 的 第 一 步 都 是 要 找 出 对 性 能 影响 较 大 的 程序 段 ,并 且 测 量 它们 目前 的 性 船 状 
UL. CPU 性 能 分 析 器 (profiler) 可 用 来 测量 在 每 一 个 子 程序 上 所 花 的 时 间 比 例 和 执行 周期 。 
因此 ,可 以 使 用 CPU 性 能 分 析 器 来 判断 对 性 能 影响 最 大 的 程序 。 周 期 计数 器 (cyete count- 
eb) 用 来 测量 一 个 特定 程序 段 所 占用 的 局 期 数 ， 使 用 周期 计数 器 来 衡量 某 个子 程序 优化 前 
后 的 性 能 情况 ,可 以 评估 优化 工作 的 成 效 ， 

ADS1. 1 调试 器 使 用 的 ARM 软件 仿真 器 (simulater) 叫 做 ARMulator, 提供 了 性 能 分 
析 和 周期 计数 的 功能 。ARMulator 性 能 分 析 咒 以 一 定 的 时 间 间 也 来 对 程序 计数 器 pc 进行 
采样 。 性 能 分 析 器 标识 pc 所 指向 的 函数 ,并 更 新 与 之 相遇 的 每 一 个 函数 的 命中 计数 大 的 
值 。 另 外 还 可 以 使 用 性 能 分 析 器 跟踪 的 输出 作为 一 个 源 文 件 来 进一步 分 析 。 

必须 了 解 所 使 用 的 性 能 分 析 器 是 如 何 工 作 的 ,以 及 它 的 精度 限制 。 如 果 基 于 pe 采样 的 
性 能 分 析 器 记录 的 采样 点 太 少 ,那么 产生 的 结果 也 就 毫 无 意义 。 也 可 以 采用 硬件 系统 的 pe 
采样 性 能 分 析 器 , 即 利 用 定时 器 中 断 来 采集 pc 数据 ， 


EE: 定时 器 中 疡 便血 惰 正 在 被 洲 重 的 系统 的 运行 速度 ! 


ARM 提供 的 工具 通常 并 不 包含 周期 计数 硬件 部 件 。 最 简单 的 做 法 还 是 使 用 ARM И 
试问 所 带 的 ARM 软件 仿真 器 来 测量 局 期 计数 。 对 于 不 同 的 硬件 平台 ,可 以 把 ARMulator 
配置 为 仿真 不 同 的 ARM 核 来 获得 周期 计数 基准 。 


6.3 指令 调整 


— —  — N _ _ _ _ 


әрп=у siedolSAƏq USISAS ү 
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指令 的 执行 时 间 依 赖 于 流水 线 的 实现 。 本 章 内 容 假 定 使 用 ARM9TDMI 的 流水 线 定 


* 这 里 的 指令 调整 (instruction scheduling) 蚌 指 在 程序 运行 前 ,由 编译 讽 或 人 工 完 咸 的 静态 调度 ， 与 计算 机 体系 结构 中 
讲述 的 指令 动态 调度 (出处 理 峰 完成 ?是 不 同 的 。 一 一 译 者 注 
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Ph. EBR D B D. 3 节 可 以 找到 相应 的 内 容 。 下 面 的 规则 总 结 了 ARM9TDMI 上 一 些 公共 
指令 的 周期 数 情况 。 
指令 执行 依赖 于 在 cpsr 中 的 条 件 标志 。 如 果 条 忻 不 匹配 ,那么 指令 占用 一 个 周期 ;如 
果 条 件 吧 配 ,那么 就 依照 下 面 的 规则 ， 
€ ALU 操作 ,比如 加 法 .减法 和 逻辑 换 作 ,占用 一 个 周期 ,包括 由 一 个 立即 数 决 定 的 移 
位 。 如 有 果 使 用 特定 的 寡 存 器 移 位 ,那么 就 要 增加 一 个 周期 ， 如 果 指 令 是 写 人 be 的 ， 
那么 要 增加 2 个 周期 。 
e 从 存储 器 装载 N 个 32 位 字 的 装载 指令 ,比如 LDR 和 LDM, 将 占用 入 个 周期。 但 
是 要 注意 , 接 下 来 的 一 个 周期 , 装 入 的 最 后 一 个 字 还 不 能 被 使 用 , ”再 下 一 个 周期 是 
更 新 装载 地 址 。 这 里 假设 是 针对 没有 cache 的 零 等 待 的 存储 器 ,或 是 带 有 cache 并 
cache APRA. RERA ER LDM 指令 是 个 例外 ,种 要 花费 2 个 周期， 如 
果 指 令 装载 pc, 那 么 也 要 增加 2 个 周期 。 
e 从 存储 器 装载 16 位 或 者 8 位 数据 的 装载 指令 ,如 LDRB, LDRSB, LDRH 和 
LDRSH, 占 用 1 个 周期 。 在 接 下 来 的 2 个 周期 中 , 装 人 的 结果 还 不 能 被 使 用 。 再 下 
一 个 周期 是 更 新 装载 地 址 。 同 样 , 这 里 假设 是 没有 cache 的 零 等 待 的 存储 只 ,或 者 
是 带 有 cache 并 cache 命中 的 情况 。 
© 分 支 (Branch) 指 令 占 用 3 个 局 期 。 
e 存储 指令 中 , 存 情 N 个 值 占用 N 个 指令 半期。 这 里 假设 是 没有 cache 027 8E f 9 
存 铺 器 ,或 者 是 cache 命中 ,或 带 有 N 个 自由 人 口 的 写 缓冲 器 的 cache 系统 。 如 果 
是 只 存储 一 个 值 的 STM 指令 ,要 花费 2 个 周期 。 
e 羔 法 指令 依赖 于 第 二 个 操作 数 的 值 ,会 有 凶 个 不 同 周期 数 ( 见 D. 3 节 中 的 表 D. 6). 


为 了 理解 在 ARM 上 如 何 有 效 地 进行 指令 调整 ,就 需要 了 解 ARM 流水 线 及 其 相关 性 
(dependencies), ARM9TDMI 处 理 器 可 并 行 地 执行 5 个 操作 ， 


ө Riy Fetch) 在 地 址 pc 处 从 存储 器 中 取出 指令 。 指 令 被 装载 到 内 核 中 ,然后 进 人 
指令 流水 线 。 | 

e FE Decoded ”对 前 一 个 周期 中 取 到 的 指令 进行 译 码 。 如 果 操 作 数 还 没准 备 好 , 那 
人 么 处 理 器 可 以 通过 前 向 通道 之 一 从 害 存 器 堆 中 读 人 操作 数 。 

e ALU 执行 前 一 个 周期 译 码 的 指令 。 注 意 这 条 指令 是 从 地 址 pc -8(ARM 状态 ) 或 
Ж рс- 4CFhumb 状态 ) 取 到 的 。 通 常 ,这 一 步 包 括 了 计算 数据 操作 的 结果 ,或 计算 
装载 ,存储 、 跳 转 操作 的 地 址 。 在 这 一 步 ,一 些 指令 会 花费 几 个 周期 。 例 如 ,乘法 和 
寄存 器 控制 的 移 位 操作 会 占用 几 个 ALU 周期 。 
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+ 要 延 时 一 个 则 期 才 可 以 使 用 最 后 一 个 装载 的 数据 , 详 见 附录 D. — Ri 
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@ LS1 通过 装载 /存储 指令 来 装载 /存储 特定 的 数据 。 如 果 不 是 装载 或 者 存储 指令 ， 
那么 这 个 步 又 没有 任何 作用 。 

eLS2 对 通过 字 节 或 者 半 字 装载 指令 装载 的 数据 进行 截取 (extract) 和 左 端 补 0 
(zero -) ,或 符号 位 扩展 (sign - extend) 。 如 果 指 令 不 是 装载 一 个 8 位 字 节 或 16 位 
半 字 的 ,那么 该 步骤 也 没有 任何 作用 。 


6.1 是 5 级 ARM9TDMI 流水 线 的 简化 功能 图 。 





指令 地 址 РС  PC-4 PC-8 PC-12 PC-16 
动作 
图 6.1 ARM9TDMI 在 ARM 状态 时 的 流水 线 执 行情 况 
注意 ; 该 图 并 没有 表示 出 来 法 和 寄存 器 移 位 操作 的 情况 。 


一 条 指令 完成 了 流水 线 的 5 个 步骤 后 ,最 后 结果 写 人 寄存 器 。 


注意 ; pc 指向 的 是 正在 取 的 那 条 指令 的 地 址 。ALU 正在 执行 的 指令 是 前 面 从 pc -8 地址 取 到 的 , 同 
时 从 当前 pc 地 址 取 新 的 指令 。 


流水 线 是 如 何 影响 指令 执行 时 间 的 呢 ? 考虑 下 面 的 例子 。 这 些 例 子 说 明了 指令 执行 的 
周期 数 是 如 何 改变 的 一 一 由 于 当前 指令 在 流水 线 中 继续 之 前 ,必须 等 前 一 条 指令 完成 某 个 
步 又 ;并 且 使 用 附录 D 总 结 的 不 同 ARM 核 的 指令 周期 时 间 和 互 锁 (interlock) 周 期 来 计算 
一 段 代 码 需 要 花费 的 周期 数 ， 

如 果 一 条 指令 需要 前 一 条 指令 的 执行 结果 ,而 这 时 结果 还 没有 出 来 ,那么 处 理 器 就 会 等 
待 。 这 称 为 流水 线 相关 (pipeline hazard) 或 者 流水 线 互 锁 (pipeline interlock), 


【 例 6.5] 没有 互 锁 的 情况 。 

RDD r0, r0, rl 

ADD r0, r0, r2 

这 两 条 指令 占用 了 2 个 周期 。ALU 用 1 个 周期 计算 r0 十 rl ,因此 这 个 结果 在 第 2 个 周 
期 ALU 计算 r0 十 r2 时 已 经 准备 好 了 。 


[Я 6.6] 显示 由 于 装载 产生 了 1 个 周期 互 锁 。 
IDR rl,[r2, #4) 


ADD г0,г0, rl 


这 2 条 指令 占用 了 3 个 指令 周期 。 在 第 1 个 周期 ,ALU 计算 地 址 r2 十 4, 同 时 译 码 
ADD 指令 。 但 是 ,因为 装载 指令 还 没有 把 rl 的 值 装载 进来 ,ADD 在 第 2 个 周期 就 不 能 继 
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续 下 去 。 因 此 流水 线 等 待 了 1 个 周期 ,直到 装载 指令 完成 LS1 步骤 。 当 rl 准备 好 后 ,处 理 
器 在 第 3 个 周期 ALU 执行 ADD 操作 。 

图 6. 2 举例 说 明了 互 锁 是 如 何 影响 流水 线 的 。ADD 指令 在 流水 线 的 ALU 阶段 暂停 
了 1 个 周期 ,等 待 装载 指令 完成 LS1 步骤 。 图 中 这 个 暂停 用 斜体 的 ADD 表示 。 由 于 LDR 
指令 在 流水 线 继续 执行 ,而 ADD 指令 中 止 了 ,它们 之 间 就 出 现 了 一 个 间隙 。 这 个 间隙 有 时 
被 称 作 流水 线 气泡 (pipeline bubble) ,这 里 用 破 折 号 来 表示 这 个 气泡 。 








图 6.2 由 于 装载 引起 的 1 个 周期 的 互 锁 
【 例 6. 7】 显示 由 于 延迟 装载 引起 的 1 个 周期 的 互 锁 。 


LDRB rl ,[r2, #1] 
ADD r0,r0, r2 
EOR г0,г0 ,rl 
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这 3 条 指令 占用 了 4 个 周期 。 虽 然 ADD 紧 跟 在 装载 字 节 后 的 周期 进行 ,但 是 EOR 指 
令 不 能 在 第 3 个 周期 开始 。 寄 存 器 rl 的 值 一 直 要 到 装载 指令 完成 流水 线 的 LS2 阶段 才 会 
准备 好 。 处 理 器 中 止 EOR 指令 一 个 周期 。 

注意 ADD 指令 一 点 也 没有 影响 流水 线 时 序 。 无 论 ADD 指令 是 否 存在 ,整个 过 程 总 是 
占用 4 个 指令 周期 ! 图 6. 3 显示 了 这 个 指令 序列 是 如 何 通过 处 理 器 流水 线 的 。 由 于 ADD 
指令 不 使 用 rl 这 个 装载 的 结果 ,所 以 ADD 指令 不 会 引起 任何 等 待 。 





图 6.3 由 于 延迟 装载 引起 的 1 个 周期 的 互 锁 


СИ 6.8] 说 明 为 什么 分 支 指令 要 占用 3 个 周期 。 处 理 器 在 跳 转 到 一 个 新 的 地 址 时 必 
须 刷 新 流水 线 。 


MOV rl, $1 





ARM BAL 2 


B casel 
AND r0, r0, rl 
EOR r2, r2, r3 





casel 


SUB r0, r0, rl 


3 条 执行 的 指令 一 共 占用 了 5 783. MOV 指令 在 第 1 个 周期 执行 。 在 第 2 个 周期 ， 
分 支 指令 计算 目标 地 址 。 这 时 需要 刷新 流水 线 , 用 新 的 pc 值 来 填 人 。 重 新 填 人 花费 了 2 个 
周期 。 最 后 ,SUB 指令 正常 执行 。 图 6.4 显示 了 流水 线 每 一 个 周期 的 状态 。 流 水 线 在 跳 转 
发 生 时 ,丢弃 了 分 支 指令 之 后 的 2 条 指令 。 
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流水 线 
周期 1 
周期 2 
周期 3 
周期 4 
周期 5 








图 6.4 由 于 跳 转 引起 的 流水 线 刷新 


load 指令 的 调整 


装载 指令 在 编译 后 的 代码 中 出 现 的 频 度 很 高 ,计算 下 来 大 约 占 所 有 指令 的 1/3。 所 以 ， 
仔细 安排 装载 指令 的 时 间 次 序 , 可 以 防止 流水 线 中 止 , 改 善 性 能 。 编 译 器 会 尽量 安排 好 代码 
执行 的 时 间 顺 序 , 但 是 5. 6 节 中 描述 的 指针 别名 问题 会 影响 编译 器 优化 。 如 果 不 能 保证 
load 和 store 指令 中 的 2 个 指针 不 指向 同一 个 地 址 ,那么 编译 器 就 不 能 去 除 在 store 指令 之 
前 的 load 指令 。 

来 看 一 个 关于 密集 存储 器 访问 (memory-intensive) 任 务 的 例子 。 下 面 的 函数 str_tolower 
把 一 串 以 0 结束 的 字符 串 从 in 复制 到 out, 并 在 处 理 过 程 中 把 字符 串 转换 成 小 写字 母 ， 

void str tolower(char x out, char * in) 

{ 


unsigned int c; 
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do 
{ 
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c= x (int t^); 

ifie = M&Ec« = 2) 
i 

czct(a - А); 

j 

* (out ++ ) = (char)c; 

}wbhiletc) ; 
) 


ADS1.1 编译 器 生成 了 下 面 的 输出 结果 。 


IER: ЭЕ ЕТШ (C А SE сс 7), E piki 0<=—'А'<='7'—'А',Щ АЯ НЕЕ 
可 以 司 用 一 入 无 符号 比较 指令 来 完成 这 个 近 查 。 


әро2 Аашәѕѕу WHY биаіцщао аму BUM 9 


str tolower 
LDRB r2, [ri], #1 ;t= ж (int ) 
SUB r3,r2, #0x41l {3=с— A 
CMP r3, #0х19 рі (сс = Z - k) 
MODCS r2,r2, # 0x20 ; ct-a-'M 
STRB r2,[r0], #1 ; * (out ++ ) = (char)c 
CHE r2, #0 1if (cl= 0) 
ВМЕ str tolower з обо str tolower 
MOV рс. rid return 


遗憾 的 是 ,在 LDRB 指令 装载 了 c 之 后 ,SUB 指令 立即 使 用 c 的 值 , 这 样 ARM9TDMI 
.流水 线 将 等 待 2 个 周期 。 由 于 load 指令 之 后 的 每 一 条 指令 都 要 用 到 c 这 个 值 , 因 此 编译 器 
不 能 做 性 何 更 好 的 改进 。 但 是 ,有 两 种 方法 ,可 以 通过 使 用 汇编 ,改变 算法 结构 来 消除 等 待 
局 期 。 这 里 把 这 些 方法 称 为 通过 高 黎 Cprejoading) ВИНУ JF (unrolling) 来 调整 ,安排 load 
指令 。 

1， 通 过 预 载 来 调整 load 指令 

这 种 安排 装载 时 序 的 方法 ,就 是 在 本 次 循环 的 最 后 装载 下 次 循环 所 需要 的 数据 ,而 不 是 
在 本 次 循环 的 开始 装载 数据 。 为 了 不 增加 代码 量 ,将 不 对 循环 进行 局 开 。 


【 例 5.9] str_tolower (EFE T Bii M. 


out FN G ypointer to output string 
in ЕН 1 Pointer to input string 
c RN 2 character loaded 


t RN 3 ;SCratch register 








opine) SJedcoleAed шӘ]5А$ у 


160 


ARM BRAGUR ALTA 








vold str tolower preload(char * out. char * in) 


str tolower preload 


LDRB c. [in], #1 с = ж (yn ++ ) 

loop 
SUB t.c, # x ;t=e- А 
СМР te P F-E {1Ё(ф< = Z — K) 
ADDLS c, c, а-А } et= a- hi 
STRR c, [out], #1 рж (out ++ ) = (char)e, 
TEQ с, #0 itest if c= = 0 
LDRMEBB с, [in], #1 tif (ol= 0) [c= «intt, 
BNE . loop : Qoto loop! 
MOV pc, lr ;return 


这 个 程序 比 原 来 的 C 版 本 多 了 一 条 指令 ,但 是 在 循环 体内 部 少 了 2 个 指令 周期 。 这 使 
得 在 ARM9TDMI 上 每 一 个 字符 的 处 理 循环 从 11 个 周期 减少 到 9 个 周期 ,性 能 提高 了 
1.22 ff. 


因为 ARM 指令 是 可 以 条 件 执行 的 ,所 以 ARM 体系 结构 特别 适合 这 种 类 型 的 预 载 。 
由 于 循环 i 装载 的 数据 是 为 循环 i 十 1 准备 的 ,这 样 对 于 第 一 次 和 最 后 一 次 循环 就 有 问题 
了 。 对 第 一 次 循环 ,可 以 在 循环 开始 前 通过 增加 额外 的 load 指令 来 预 载 数据 ;但 对 最 后 一 
次 循环 ,循环 体 已 不 需要 再 读 取 任何 数据 , 读 取 的 可 能 是 超过 数组 边界 的 数据 ,这 可 能 会 引 
起 数据 异常 中 止 1 对 于 ARM, 可 以 通过 load 指令 的 条 件 执行 来 解决 这 个 问题 。 在 例 6.9 
中 ,只 有 在 下 一 次 循环 将 继续 的 情况 下 ,帮会 预 载 下 一 个 字符 。 这 样 ,最 后 一 次 循环 就 不 会 
装载 任何 数据 。 

2. 通过 循环 展开 来 调整 load 指令 

这 种 调整 load 指令 的 方法 是 通过 循环 展开 来 插入 复制 循环 体 的 内 容 。 合 如 ,一 次 循环 
执行 原来 DUET 及 i 十 2 的 循环 体 的 内 容 , 当 循环 i 中 的 某 个 操作 结果 还 没有 准备 好 时 ,可 
以 先 执行 循环 i 十 1 中 的 操作 ,以 中 免 等 待 循环 ; 的 结果 。 


СЯ 6.10] 对 str_tolower 范 数 使 用 了 循环 展开 的 方法 来 调整 load 指令 。 


cut RN Ú ¡pointer to output string 
in RN 1 pointer to input string 
саб RN 2 character 0 

t EN 3 scratch register 


са1 RN 12 ;character 1 
сад RN 14 ¡character 2 
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;void str tolower unrolled(char * out, char + in) 


str, tolower, unrolled 


с 

= 
STMFD sept. ilr} ;function entry = 

loop next3 (O 

LDRB сай, [in;, #1 ‚сай = « іл++ ; > 
LDRB са}. [in;. #1 са] = x int; Ü 
LDRB ca2, [in;, H 1 {са2= x int; 9 
SUB Е, сай, А Convert сай to lower case 3 
CHE t TM ч 
ADDS саб, сай, Ж a A a 
SUB t, cal, H А iconvert cai to lower case > 
CHP t, Ж-А = 
ADDS cal, cal, Жа - А 2 
SUB t, ca2, К convert са2 to lower case Ф 
cp tod WW 3 
ADDLS ca2, ca2, d'a ~ А g 
STRB саб, [out], #1 ; * out ++= сай; O 
TEQ сай, #0 sif {саб!= 0) si 
STRNEB cal, [out], #1 ; ж out ++= cal; Q 
TEQNE. cal, HO pif (са0!= 0 KE са1!= 0) 
STRNEB са2, [out], #1 ; * out ++= ca2, 
TEQNE ca2, #0 ;if (саб!= 0 БЕ са11= 0 && ca2!2 0) 161 
BNE ` loop next3 goto loop next3; 
LDMFD — spl. {рс} jzeturn; 


本 以 看 到 ,这 个 循环 的 执行 效率 是 最 高 的 。 在 ARMSTDMI 上 对 每 个 字符 的 处 理 操作 
只 需要 7 个 周期 , 比 最 初 的 str_tolower 性 能 提高 了 1. 5? 悦 。 而 且 由 于 ARM 指令 能 条 件 
执行 ,避免 了 访问 超过 字符 串 结尾 的 字符 。 


但 是 , 例 6. 10 的 改进 也 带 来 了 一 些 额 外 的 开销 ;代码 量 比 原来 增加 了 2 倍 。 上 面 的 代 
码 假定 在 输入 学 符 串 的 结尾 后 可 以 再 读 取 2 个 字符 ,但 如 果 字 符 串 正好 处 在 RAM 的 最 后 ， 
那么 就 会 产生 数据 异常 。 另 外 ,对 于 很 短 的 字符 捉 , 执行 效率 可 能 也 会 下 降 , 这 是 因为 
D 堆栈 操作 Ir zoo e RAI OO ЕИН: О 在 发 现 最 后 2 个 字符 是 越界 字符 前 ,程序 可 
能 已 毫 无 意义 地 对 这 2 个 字符 进行 了 操作 , 

在 确定 数据 量 比较 大 的 情况 下 ,对 实时 要 求 高 的 部 分 应 用 程序 使 用 循环 展开 的 方法 会 
比较 适合 。 而且, 如 果 在 编译 时 已 经 知道 了 数据 量 的 大 小 ,那么 就 可 以 解决 越过 数组 边界 的 
读 取 问 题 。 
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A # ЖИЕ 
€ ARM 核 是 流水 线 结 构 的 。 如 有 果 指 令 的 执行 结果 是 后 续 指 令 的 源 抬 作 数 ,那么 处 理 
器 将 会 插入 等 得 周期 直至 数据 准备 好 ,这 样 流水 线 就 会 产生 几 个 周期 的 延 述 。 
€ load 和 乘法 指令 在 许多 情况 下 会 产生 延迟 。 对 特定 的 ARM 处 理 器 核 ,关于 指令 的 
周期 定时 和 延迟 可 参见 附录 D。 
e 有 2 种 软件 方法 可 以 解决 由 load 指令 导致 的 流水 线 孔 镇 :商埠 一 一 在 循环 i 中 预 载 
循环 i 十 1 的 数据 ; 竹 环 尾 开 一 一 在 一 次 循环 中 插 人 原 循环 体 i 和 i 十 1 的 代码 ， 


6.4 寄存 器 分 配 





可 以 使 用 ARM 16 个 可 见 寄存 器 中 的 14 个 来 保存 通用 数据 ,另外 2 个 是 堆栈 指针 113 
和 程序 计数 器 15。 对 于 一 个 遵循 ATPCS 调用 规则 的 函数 ,必须 保护 被 调用 寄存 器 А 
r11 的 值 。ATPCS 同时 也 规定 了 堆栈 应 是 8 字 节 边界 对 齐 的 ,因此 在 调用 子 程序 时 必须 保 
护 这 个 边界 。 对 优化 过 的 ,需要 很 多 寄存 器 的 汇编 程序 ,可 以 使 用 下 面 的 模板 来 保护 寄 
TERR s 


routine name 
STMED spl, irá-r12, lr) stack saved registers 
ibody of routine 
the fourteen registers rü - r12 and lr are available 
LDMED spl, (r4-r12, pc) jrestore registers and return 


栈 操作 ( 压 栈 和 退 楼 )r12 的 惟一 目的 是 ,保证 堆栈 是 8 字 节 边界 对 齐 的 。 如 果 程 序 不 
调用 其 它 的 ATPCS 子 程序 ,那么 无 需 对 r12 RRE, HF ARMv5 及 其 以 上 的 体系 结 “， 
构 , 甚 硅 当 程序 从 Thumb 代码 中 被 调用 时 ,也 可 以 使 用 上 面 的 模板 。 但 在 ARMAT 处 理 
妖 上 ,如 果 程 序 可 能 从 Thumb 并 码 中 被 调用 ,那么 应 该 把 模板 修改 为 


routine nane 
SIMED spl, ír4-r12, lr} ¡stack saved registers 
body of routine 
jregisters rÜ- r12 and lr are available 
LDMFD spl, {r4-rlż, lr} restore registers 
BX lr ;return,with mode swith 


下 面 我 们 将 着 重 于 分 析 对 寄存 喘 需 求 比较 大 的 任务 该 如 何 较 好 地 把 变量 分 配 到 寄存 
如 ,如 何 处 理 局 部 变量 超过 14 个 的 情况 ,以 及 如 何 最 好 地 利用 14 个 可 用 的 寄存 器 。 
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6.41 ЗЕТЕ ВЕТ 


编写 一 个 汇编 程序 时 ,最 好 为 变量 使 用 寄存 器 名 字 , 而 不 是 直接 使 用 寄存 器 编号 (如 го), 
这 样 可 以 容易 地 更 改变 量 分 配 的 寡 存 器 编号 。 如 果 变 量 不 会 交 渤 使 用 ,那么 还 可 以 对 同一 个 
物理 寄存 吴 使 用 不 同 的 寡 存 嚣 名字。 使 用 寄存 器 名 字 可 以 提高 代码 的 清晰 度 和 可 读 性 。 

对 寄存 器 来 说 ,大 部 分 的 ARM 操作 都 是 正 交 的 。 换 名 话说 ,特定 的 寄存 器 并 没有 特定 
的 角色 。 在 一 个 程序 里 ,如 果 把 2 个 寄存 器 Ra 和 Rb 在 所 有 出 现 的 地 方 都 互 换 , 那 么 程序 
的 功能 并 不 会 改变 。 但 是 ,也 有 一 些 情况 寄存 器 的 物理 编号 是 重要 的 ， 


e SEGUE АТРС5 规范 定义 了 一 个 函数 的 前 4 个 参数 是 分 配 在 寄存 器 r0 一 z3 
的 其 它 的 参数 存放 在 堆栈 ,返回 值 必 须 存放 在 го, 

e — КЖЕ ИШТЕЕ EE ”一 条 多 家 存 器 装载 或 存储 的 LDM 和 
STM 指令 ,总 是 操作 一 组 编导 按 增 序 排列 的 寄存 器 。 如 果 ro 和 zl 出 现在 操作 寄存 
器 中 ,那么 处 理 器 将 总 是 在 低地 址 装载 或 存储 r0 ,然后 是 fl ,等 等 。 

e EX ЛИРИ dEARMVSE 上 引入 的 LDRD 和 STRD 指令 ,总 是 使 用 一 对 连续 
编号 的 寄存 器 一 一 Rd 和 Rd 十 1 ,而 且 ,Rd 必须 是 偶数 编号 寄存 器 {如 r0,r2,r4 Ж), 


举例 来 看 编写 汇编 程序 时 如 何 分 配 寡 存 器 。 假 定 想 要 对 存储 器 中 N 位 数 的 一 个 数组 
PFE k 位。 为 了 简单 起 见 ,假定 N 是 一 个 很 大 的 数 , 而 旦 是 256 的 倍数 ,同时 假定 OE 
32, 输 入 / 答 出 指针 都 是 字 边 界 对 齐 的 。 这 种 滋 以 双 类 型 的 操作 ,对 于 处 理 多 精度 数 的 算术 
运算 是 较 普遍 的 。 而 且 对 于 从 一 种 位 或 字 节 边界 对 齐 , 到 另 一 种 位 或 字 节 边界 对 章 的 块 榜 
贝 操 作 是 很 有 用 的 .例如 :C ERA memcpy 可 以 只 用 字 访 阅 来 复制 一 字 节 的 数组 ， 
C BON shiu bits 实现 了 一 个 简单 的 对 N 位 数 的 位 移 位 操作 ， 
unsigned int shift bits(unsigned int * out, unsigned int + in, unsigned int N, unsigned int К) 
{ 
unsigned int саттү= 0, x; . 
do 
{ 


epoD Aguuessy уугу Butzituidio awv Bull 9 


х= sint; 
* out ++ = (x << k) | carry; 
carry-x ss (32-1) ; 
N- = 32} 
bwhilelN); 
return Carry; 


) 
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提高 效率 最 明显 的 方法 是 ,展开 和 人知 环 来 一 次 处 理 8 个 宁 256 位 的 数据 。 这 样 就 可 
以 利用 多 寄存 器 装载 或 存储 的 load 和 store 指令 ,一 次 装载 和 存储 8 个 字 的 数据 ,以 获得 最 
高 效率 。 先 不 考虑 害 存 器 数量 ,编写 出 下 面 的 代码 | 


shift bits 


loop 


STHED 
RSB 
MOV 


MOV 


MOV 


MOV 


STMIA 


MOV 
LDMFD 





spl. {r4- rll, lr] 
kr, k. $32 
carry, #0 


inl, ix 0- x 7) 

y 0, carry, x 0. LSL k 
carry, x 0, LSR kr 

y l, carry, x 1, LSL k 
Carry. x 1, LER kr 

y 2, carry, x 2, LSL k 
Carry, x 2, LSR kr 

y 3, carry, x 3, LSL k 
carry, x 3, LSR kr 

y 4, carry, x 4, LSL k 
carry, x 4, LSR kr 
y.5, carry, x 5, LSL k 
carry, x 5, LSR kr 

y 5, carry, x 6, LSL k 
Carry, x b, LSR kr 
y.7. carry, x T, LSL k 
carry,x 7,LS5R kr 
out], (y 0-7 y 7] 

N, Н, {256 

loop 

rÜ, carry 

spl, {r4- ril, pc) 


;Save registers 


ikr = 32 - ki 


iload 8 words 
shift the 8 words 


¡recall x 0=y 1 


iStore B words 
;N -= (8 words + 32 bits) 
sif (N!= 0) goto loop; 


;return carry; 


现存 来 看 寄存 器 分 配 。 输 入 参数 并 不 需要 移动 寄存 器 ,可 以 立即 指派 ， 


out 
in 
N 

k 


RN 0 
RN 1 
RN 2 
RN 3 








要 使 多 次 装载 能 正确 工作 ,必须 把 x09 x7 分 配给 编号 连续 递增 的 寄存 器 ,y0 一 ?7 也 一 
样 。 注 意 存 开始 y1 操作 之 前 ,已 完成 了 对 хо 的 操作 ,所 以 可 以 对 大 和 BERI 4 58 
号 的 寄存 器 。 指 派 如 下 ; 


x D RN 5 

x 1 RN 6 
х_2 RN 7 

x 3 PN 8 

x à RN 9 

x 5 RN 10 
x 6 RN 11 
x 了 RN 12 
y. BN 4 

y l1 RN x Ô 
y.2 RH x_1 
y 3 RH x_2 
үй RN x 3 
y. 5 RN x 4 
y 6 RN x 5 
y 了 RN x_6 


但 是 还 有 一 个 问题 , 剩 下 2 个 变量 carry 和 fr, 但 只 有 一 个 空闲 的 寄存 器 lr。 有 几 种 可 
能 的 方法 来 处 理 这 个 问题 (寄存 器 不 够 分 配 ) : 


e 在 每 一 个 稍 环 中 减少 操作 ,以 减少 所 需要 的 寄存 器 数目 。 这 种 情况 下 ,1oad 可 以 每 
次 只 装载 4 个 字 的 数据 ,而 不 是 8 个 字 。 

e 使 用 堆栈 来 存储 最 少 使 用 的 值 , 以 释放 一 些 寄 存 器 。 这 种 情况 下 ,可 以 把 循环 计数 
值 N 存放 在 堆栈 (关于 交换 寄存 器 给 堆栈 的 更 多 详情 见 6.4.2 小 节 ) 。 

改变 代码 的 实现 ,以 释放 更 多 的 寄存 器 。 下 面 我 们 就 使 用 这 种 解决 方法 (更 多 例子 
D 6.4.3 小 节 》， 


我 们 经 常 重申 ,一 个 算法 的 实现 过 程 要 通过 多 次 调整 寄存 器 分 配 ,直至 算法 适合 于 14 
个 有 效 寡 存 器 。 在 上 述 例 子 中 可 以 发 现 ,变量 carry 根本 不 需要 一 直 放 在 同一 个 寄存 器 中 1! 
开始 时 ,carry 先 放 在 y0, 当 z0 不 再 需要 时 ,转移 到 y1, 依 次 类 推 。 这 样 就 可 以 把 kr 分 配给 
Ir 来 完成 这 个 程序 ,因为 carry 不 青 需 要 新 的 寄存 器 分 配 。 


[16.111 最 后 优化 过 的 shift bits 程序 ,使 用 了 全 部 14 个 可 用 的 ARM STER, 


kr RN іг 
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z shift bits 

= STMFD spl, [r4- rll, lr) ‚зате registers 
© RSB kr, k, #32 :kr = 32- k; 

© MOV y 0, #0 ;initial carry 
d loop 

D LDMIA inl, {x_0- x7} ; load 8 words 

Š CRR y Q, y Ü, x0, LSL k shift the Я words 
g MOV y l, x 0, LSR kr ;irecallx 0-7» 1 
E. DRR y1, y 1, x 1, LSL k 

» MOV — y 2, x l.ISRkr 

Ф OR у2,у2, 2, ISk 

o MOV ү.3, x 2, LSR kr 


ОВЕ y 3, y 3, x 3, ISL k 
MOV y 4, x 3, LSR kr 
ОВЕ y 4, y 4, x 4, DSL k 
MOV y 5, x d, L5R kr 
CORR y5,y5,x5,ISLk 
MOV y 6, x 5, LSR kr 
ОКЕ y 6, у 6,x b, IS, Е 
MOV ут, x 6, LSR kr 
ORR y 7. y 7, x 7, LSL k 


166 
SIMIA outl, iy 0—- v 7) store B words 
HOV y D, x, 7, LSR kr 
5085 Н, N, #256 ;N — (8 words * 32 bits) 
BNE loop jif (N1= 0) goto loop; 
MOV 10, y. Ü return carry; 


LDMED — sp!, {r4-ril, pc) 


6.4.2 使 用 超过 14 个 的 局 部 变量 


如 采 需 要 在 一 个 程序 中 使 用 多 于 14 个 32 位 的 局 部 变量 ,那么 就 必须 把 一 些 变量 存放 
在 堆栈 中 。 基 本 的 做 法 是 ,从 一 个 算法 的 最 内 层 循环 向 外 考察 ,因为 最 内 层 循环 对 性 能 的 最 
HRK., 


[51 6.12] . 显示 3 层 赎 讲 循 环 , 每 一 层 循环 需要 从 它 的 外 层 循环 继承 的 状态 信息 ( 关 
于 编 环 构造 的 更 多 方法 和 例子 见 6.6 节 ) 。 


nested loops 
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ird - ril.lr) 


z8et up loop 1 


x STMFD sp!, 


loopi 


STHFD spl, 


;Set up loop 
loop2 


5ТМЕ gpl, 


set up loop 


| loap3 


{100р] registers] 
2 


[1oopa registers) 
3 


;body of loop 3 


Bícond! loop3 

LDMFD apl, {100р2 register) 
tbody of loop 2 

Bi cond} loop2 

ШИМЕЙ вр!, (loopl register) 


body of loop 1 
Bicond} loopl 


LDMFD spl, ({14-г11,ре) 


可 以 发 现 ,即使 使 用 例 6. 12 中 的 构造 ,对 最 内 层 循环 还 是 没有 足够 的 寄存 器 , 那 就 需要 
交换 内 部 循环 变量 到 外 部 堆栈 。 如 果 直 接 用 数字 作为 堆栈 地 址 的 偏 移 量 ,那么 对 于 汇编 代 
码 来 说 是 很 难 维护 和 调试 的 ,汇编 回 会 在 分 配 变量 到 堆 梭 时 自动 计算 含 移 量 ， 


СИ 6. 13】 显示 如 何 使 用 ARM 汇编 保留 字 MAP( 别 名 -) 和 FIELD E $2, DL 
栈 中 为 变量 和 数组 定义 和 分 配 空间 。 这 2 个 保 国字 与 C 中 的 stroet 操作 有 相似 的 作用 。 


0 {йар symbols to offsets starting at offset 0 
4 ја is 4 byte integer (at offset 0) 

2 ib 1з-2 byte integer (at offset 4) 

2 ;C is 2 byte integer (at offset 6) 

64 1d is an array of 64 characters (at offset 8) 
0 length records the current offset reached 


spl, {174 — r11, 1r) ;save callee registers 
Sp, Sp, # length ¡create stack frame 


ro, [sp， Фа) а= rÜ; 





C 
和 
= 
m 
ie. 
I 
Z 
Ü 
O 
g 
3 
a 
> 
С) 
< 
I 
7 
(D 
3 
g 
< 
С) 
О 
о. 
Ф 
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LDRSH rl, [sp, #Ь) ;rl = b; 

ADD r2, sp, #а ;r2 = &d[ 0] 

ADD sp, sp, # length ¿restore the stack pointer 
LDMFD — sp!, (r4- r11, рс) ;return 


6.4.3 ”最 大 限度 地 使 用 寄存 器 


在 像 ARM 这 样 的 load-store 体系 结构 处 理 器 上 ,访问 寄存 器 中 的 数据 要 比 访问 存储 
器 中 的 数据 效率 高 很 多 。 这 里 有 一 些 关 于 把 几 个 小 于 32 位 (sub-32-bit) 长 度 的 变量 存放 在 
一 个 32 位 寄存 器 的 窍门 ,这 样 做 可 以 减 小 代码 尺寸 ,并 改善 性 能 。 本 小 节 列 举 了 3 个 例子 ， 
以 说 明 如 何 把 多 个 变量 打包 (pack) 在 一 个 ARM 寄存 器 。 

【 例 6. 14】 假定 需要 通过 一 个 可 编程 的 增 量 来 遍历 数组 。 一 个 普通 的 例子 是 通过 一 
个 可 变 采 样 率 的 声音 来 步 进 产生 不 同音 调 的 音符 。 用 C 代码 表示 如 下 : 

sample = table[ index] 

index+ = increment 

通常 变量 index 和 increment 都 是 很 小 的 ,足以 保存 在 一 个 16 位 变量 中 。 把 这 2 个 变 
量 打包 放 人 一 个 32 位 的 变量 indinc， 
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bit31 16 15 0 


іпаіпс= ( index << 16) 十 Increment = | index | increment | 


把 这 行 C 代码 转换 成 汇编 ,使 用 一 个 寄存 器 来 存放 indinc: 


LDRB sample, [table,indinc, LSR#16] ;table[ index] 
ADD indinc, indinc, indinc,LSL#16 ;іпаех += increment 


168 


注意 ; 如 果 index 和 increment 都 是 16 位 的 值 ,那么 把 index 放 进 indinc 的 高 16 位 也 正确 实现 了 16 
位 环绕 (16-bit-wrap-around) , 即 index= ( short ) ( index + increment ) 。 这 种 做 法 对 循环 缓冲 区 (circular 
buffer) 的 操作 也 是 很 有 帮助 的 。 


[56.15] 如 果 使 用 寄存 器 中 的 数值 作为 移 位 次 数 ,ARM 使 用 寄存 器 的 位 0 一 7 作为 
移 位 值 , 并 忽略 寄存 器 的 位 8 一 31, 那 么 就 可 以 用 位 8~31 来 存放 男 一 个 变量 。 


这 个 例子 显示 了 如 何 组 合 寄存 器 指定 的 移 位 值 shift 和 循环 计数 值 count, 把 40 个 元 素 
的 数组 右 移 shift 位 。 我 们 定义 一 个 新 的 变量 cntshf 来 存放 count 和 shift; 
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hit31 8 7 0 
cntshí— (count << 8)--shift— | count shift 
out RN 0 ;输出 数组 地 址 
in RN 1 ;输入 数组 地 址 
cntshf RN2 ПЖ EE: {В 
x RN 3 ;临时 变量 


,void shift right(int = out, int x in. unsigned shift); 
shift right 


9po2 ARuaessy уугу BurziuuuidOo QNY Buum 9 É 


ADD cntshf, ontshf, #39 << B ;count = 39 
shift loop 
LDR x, [in], #4 
SUBS cntshf, cntshf, #1 << B decrement count 
MOV x, х, ASR cntshf shift by shift 
STR x, [out], #4 
BGE Shift, loop ; continue if count 0 
MOV рс, ir 


[56.16] 在 处 理 8 位 或 16 位 值 的 数组 时 ,有 时 可 以 把 多 个 变量 同时 放 人 一 个 32 位 
的 寄存 器 中 。 这 称 为 单 发 射 多 数据 CSingle Issue Multiple Data, SIMD) 438 , 

BZ ARMv5 的 体系 结构 版 本 并 不 显 式 地 支持 SIMD 操作 。 但 是 ,仍然 有 些 地 方 可 以 
进行 SIMD 处 理 。6. 6 节 将 介绍 如 何 把 多 个 循环 变量 存放 在 一 个 寄存 器 里 。 这 里 将 研究 一 
个 关于 图 像 的 例子 ,使 用 普通 的 ADD 和 MUL 指令 处 理 一 幅 图 像 中 的 多 个 8 位 橡 素 ,以 完 
成 一 些 SIMD 操作 。 

假定 需要 把 两 幅 图 像 XC Y 合并 成 一 幅 新 的 图 像 了 2。 分 别 用 z. у, z ЛН 
图 像 中 的 第 n T S 位 像素 。 设 范 畏 为 0 一 256 的 a 为 比例 因 于 (scaling factor)。 为 合并 图 
像 , 设 


„= (ах. + (256 - а) y,)/256 (6.1) 
换 名 话说, 图像 Z 是 图 像 必 以 比例 a7256 加 到 以 1 一 〔(a7256) 为 比例 的 图 像 了 上 ， 
注意 | z,— xu, 256 
这 里 wc а ( ох„—у„) + 2565, (6. 2) 


因此 每 个 像素 需要 一 条 减法 ,一 条 乘法 .一 条 移 位 加 法 和 一 条 右 移 指令 。 为 了 一 次 处 理 
多 个 像素 ,使 用 一 条 字 装 载 指 令 一 次 装载 4 个 像素 。 也 就 是 把 4 个 变量 打包 在 一 个 字 中 ， 
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Bit 24 16 8 0 


16 8 — 
азаа Ја 209 a+ = н ra НН 


然后 把 8 位 的 数据 通过 一 条 AND 指令 和 屏蔽 寄存 器 将 其 变 成 16 位 数据 。 使 用 下 面 的 
符号 : 


Bit 31 16 15 0 


анаја + а= 


注意 ; 如 果 使 用 数学 等 式 a248 十 b 来 表示 [avb] ,那么 符号 数 [a,b] + [с,4]=[а + b, c 十 dj。 因 此 可 
以 使 用 普通 的 算术 指令 来 实现 SIMD 操作 。 

下 面 的 代码 显示 了 如 何 使 用 2 个 乘法 来 一 次 处 理 4 个 像素 。 这 些 代码 假定 处 理 176 X 
144 大 小 的 1/4GIF 图 像 。 


IMAGE WIDTH EQU 176 ;QCIF width 
IMAGE HEIGHT EQU 144 ;QCIF height 
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pz RN 0 pointer to destination image (word aligned) 
px RN 1 ;pointer to first source image (word aligned) 
py RN 2 ;pointer to second source image (word aligned) 
a RN 3 ;8-bit scaling factor (0-256) 

170 
хх RN 4 ;holds four x pixels [x3, x2, х1, х0] 
уу RN 5 ;holds four y pixels [y3, y2, yl, y0] 
x RN 6 ;holds two expanded x pixels [x2, x0] 
y RN 7 ; holds two expanded y pixels [y2, y0] 
2 RN 8 ;holds four z pixels [23, 22, 21, 20] 


count RN12 ;number of pixels remaining 
mask RN 14 ;constant mask with value 0x00ff00ff 


;void merge images(char * pz, char * px, char x py, int a) 
merge images 

STMFD  sp!, (r4—r8, lr} 

MOV count, # IMAGE WIDTH x IMAGE HEIGHT 

LDR mask, = 0x00FF00FF ;[ 0, OxFF, 0, OxFF] 


nerge loop 


LDR XX, [рх], #4 ;[ x3, x2, zl, х0] 











ЫЕ уу, [py], #4 L b үй, ү}, үй] 
AND X, mask, xx [ 0, xd, 0. x0] 
AND y, mask, vy [ 0, y, 0, уб] 
SUB X, X, y [ | x2—y32), (x0— y0) | 
МІТ, x, a, x :[ a*(w2—y2), as (x0— 302] 
ADD x, x, y, LLH 8 [ w2, 0 ] 
AND z, mask, x, LSR#8 [ ó z, 0, z0] 
AND x, mask, xx, LSR E 8 [ O, x3 O, xl] 
AND y. mask, yy, ТӘ 8 L O, ү, O, yl] 
SUB — x x, y [ 065—593), — (xl—yD] 
HUL х,а,х _ ¡E аж(х3—у3), as Gi—yD] 
ADD X, x, у, LSL 8 АГ м3, м1] 
AND x, mask, x, LSR#8 ;3[ 0, 23, 0, zl] 
ORR z, Z, x, LSL# 8 sf 23, 22, zl, zů] 
STR 2, [pz], #4 ¿store four z pixels 


SUBS count, count, #4 
BGT merge loop 
LOMED spl, (r4—r8, pc] 


BT 
Ом, 256а-255(256—а) —256 X 255 — OXFF00 (6. 3) 


以 上 代码 是 有 效 的 ， 
因此 ,可 以 很 容易 地 通过 分 别处 理 数据 的 高 16 位 和 低 16 位 ,把 值 [w2,w0] 分 成 w2 和 
w0。 我 们 已 成 功 地 通过 32 位 装载 存储 和 数据 操作 指令 并 行 地 处 理 了 4 个 8 位 像素 。 


A £ ЖЕЙУ | 

e ARM 有 14 个 通用 寄存 器 ,r0~r12 和 rld。 堆 栈 指针 寄存 器 r13 和 程序 计数 器 215 
不 能 用 于 通用 数据 。 操 作 系 统 中 断 时 ,经 常 假定 用 户 模式 下 的 r13 指向 一 个 有 效 的 
堆栈 ,因此 不 要 试图 去 使 用 r13. 

e 如 果 使 用 的 局 部 变量 超过 了 14 个 ,那么 从 最 内 是 循环 向 外 把 剩余 的 变量 放 人 堆栈 。 

e 在 编写 汇编 程序 时 ,应 尽量 使 用 寄存 器 名 字 , 而 不 是 物理 寄存 器 编号 ， 这 样 收 可 便 
于 重新 分 配 寄存 顺和 维护 代码 。 

e 为 了 有 效 利用 寄存 器 ,有 时 可 以 把 多 个 变量 存放 在 一 个 寄存 器 中 。 比 如 ,把 循环 计 
数值 和 移 位 值 放 在 一 个 寄存 器 中 ,也 可 以 把 多 个 像素 存放 在 一 个 寄存 器 中 。 
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6.5 条 件 执行 


”一 -一 一 


ARM 指令 集 的 一 个 重要 特征 就 是 大 多 数 的 指令 均 可 包含 一 个 可 选 的 条 件 码 。 当 程序 
状态 寄存 器 cpsr 中 的 条 件 标志 满足 指定 条 件 时 , 带 条 件 码 的 指令 才 会 执行 。 条 件 执行 基于 
15 个 条 件 码 之 一 。 若 没有 指定 条 件 , 则 汇编 器 默认 为 无 条 件 执行 (AL) UE 14 个 条 件 被 
分 成 7 对 。 这 些 条 件 依赖 于 cpsr 寄存 器 中 的 4 个 象 件 标志 N,Z,C，V。 各 种 ARM 条 忻 码 
ИНЖ A MAR A.2。 关 于 条 件 执行 的 介绍 也 可 参见 2.2.6 小 节 和 3,8 W. 

默认 情况 下 ,ARM 指令 并 不 会 更 新 ARM 寄存 器 cpsr 中 的 N,Z,C,V 标志 。 对 大 多 数 
的 指令 , 营 要 更 新 这 些 标 志 , 则 需要 对 指令 助 记 符 加 后 级 S。 例 外 的 是 不 写 人 有 目标 寄存 器 的 
比较 指令 ,它们 惟一 的 目的 就 是 更 新 这 些 标志 ,因此 不 需要 S 后 弧 。 

通过 组 合 使 用 条 件 执行 和 条 件 标志 设置 ,可 以 简单 地 实现 if A, ЖЕКЕ НЛ Ж 
指令 。 这样 可 以 改善 性 能 ,因为 分 支 指令 会 占用 较 多 的 周期 数 ; 同 时 也 可 以 减 小 代码 兵 十 。 


[16.17] 下 面 的 C 代码 把 一 个 unsigned integer 类 型 的 100115) gH Rn TA 
进 制 的 字符 Cs 
if (i«10) 


| 


с=1+ "0; 
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c= it'À-10; 


用 汇编 语言 的 条 件 执行 来 重 写 这 个 例子 。 如 下 ， 


CHE i, #10 
ЫП с,1,%# v 
ADDHS e, i, ФА - 10 


第 1 条 ADD 指令 没有 改变 条 件 标志 。 第 2 条 ADD 指令 也 是 通过 比较 的 结果 有 条 件 
地 执行 。6. 3.1 小 节 显示 了 一 个 类 似 的 例子 ,有 条 件 地 转换 成 小 写字 母 . 


条 件 执行 对 于 多 重 条 件 结构 会 更 加 有 效 。 
【 例 6.18】 TEM C 代码 表示 了 字符 是 元 着 字母 时 的 情况 
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if(c--'al|c--'ei|ess'i|ioezs o |ic- wu) 


{ 


vowel ++; 


} 
利用 条 件 执行 编写 的 汇编 代码 如 下 ， 

TEQ c H'a 

ТЕШЕ с, # “е? 

TEQNE eyr 

ТЕНЕ с, о" 

TEDNE с, ‘w 

ADDEQ vowel, vowel, #1 

—В TEQ 比较 指令 执行 的 结果 匹配 ,cpsr 寄存 器 中 的 条 件 标志 Z 就 会 被 设置 为 0。 这 
样 在 条 件 Z—0 的 情况 下 ,下 面 的 TEQNE 指令 就 不 会 被 执行 。 类 似 地 ,对 volwel 增 量 的 
ADDEQ 指令 也 有 河 样 的 效果 。 这 样 对 于 这 语 名 中 的 同类 型 比较 ,都 可 以 使 用 这 种 方法 。 


【 例 6.19】 看 下 面 的 C 代码, 判别 字符 c 是 否 是 字母 ; 
if (ба = А? ББ с = 27) || (G> = ба? S& c< = *ш! у) 


{ 
letter ++ 


} 


ГЕНА ER, ЕНШЕ АВНЕ ЖИЕ с 的 范围 ;再 用 无 符 
号 比较 来 判断 字符 是 否 在 这 个 范围 之 肉 。 下 面 的 汇编 程序 高 效 地 实现 了 这 个 函数 ， 
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SUB. temp, c, £A' 
СЫР temp, # *2!-*А' 
SUBHI temp,c, # 'a' 
CHPHI temp, Ё ‘z’ - ‘а’ 
ADDS letter ,letter, 1 


包括 switch ЖИЕ ЖМ ZERO 6.8 35. 


ШЖ: K 6.18 T ERE AND 和 OR 之 问 的 转换 关系 。 可 以 把 一 小 OR 6 Aik A 
AND 的 逻辑 表达 式 , 这 对 于 阐 化 戒 重 新 排列 到 辑 表 丢 或 是 有 帮助 前 。 


#61 WNTEZXK 
BR ik x 3 k ik x, 
1 (a& &b) (la) || (! à) 


! (al| b) (1 a) && (1! b) 
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A BS ЖЯ 
e 利用 条 件 执行 可 实现 大 部 分 if 条 件 语句 , 比 使 用 条 件 分 支 指令 效率 高 得 多 ，; 
e 可 使 用 带 有 条 件 码 的 比较 指令 来 实现 带 有 几 个 类 似 的 逻辑 AND 或 者 OR PI i # ff 
语句 。 


6,6 循环 结构 


大 部 分 对 性 能 影响 较 大 的 程序 都 会 包含 循环 体 。 在 5. 3 节 中 提 到 使 用 减 计数 到 夫 
(count down to zero) 结 构 的 ARM 循环 执行 速度 是 最 快 的。 本 节 将 会 讨论 如 何 用 汇编 来 实 
现 高 效 的 循环 体 ; 间 时 也 会 介绍 如 何 展开 循环 ,以 获得 最 好 的 性 能 。 | 


6.6.1 18У 


对 一 个 NN 次 的 减 计数 循环 来 说 ,循环 计数 值 i 计数 为 N~1, 循 环 的 结束 条 件 是 1=0， 
一 个 较 好 的 实现 是 ， 


MOV i,N 
loop 
;loop body goes here and i= NN— 1,*,1 
SUBS i.i, #1 
BGT ioop 


这 个 循环 开销 包括 一 条 设置 条 件 标志 的 减法 指令 和 一 条 条 件 分 支 指令 。 在 ARM 和 
ARM9 上 ,一 次 循环 占用 4 个 指令 周期 。 如 果 i 是 数组 的 下 标 值 , 那 么 i 的 范围 为 N 一 1~0， 
从 而 可 以 访问 下 标 值 为 0 的 数组 元 素 。 实 现 的 代码 如 下 ，; 


SUBS 2,8, #1 
loop | 
:loop body goes here and i- N- 1,N— 2,.,0 
SUBS 1,1,1 
BGE loop 


只 有 最 后 一 次 循环 才 置 位 标志 Z, 在 循环 的 其 它 过 程 中 ,标志 Z 保持 为 0。 在 循环 结束 
时 ,也 可 以 使 用 条 件 EQ 和 NE 来 满足 一 些 其 它 的 需要 。 比 如 ,如 果 要 为 下 一 个 循环 预 载 数 
BOE S. 3 小 节 讨论 过 这 个 问题 ), 那 么 就 要 避免 在 执行 最 后 一 次 循环 时 预 载 数 据 ,可 使 用 条 
件 NE 来 完成 预 载 操作 。 c 
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每 一 次 循环 计数 信 并 不 一 定 都 是 减 1， 如 果 需 要 МУЗ 次 循环 (假设 N 是 3 КИЙ О, 
么 计数 值 每 次 减 3, 循 环 体 的 执行 效率 就 会 更 高 。 


MOV iN 






loop 
;loop body goes here and iterates ( round up ) (N/3) times 
SUBS 1.1.13 
BGT loop 


6.6.2 展开 计数 循环 


又 回 到 了 循环 展开 的 主题 。 遂 过 多 次 执行 循环 内 部 语句 来 展开 循环 ,这 样 可 以 减 小 循 
环 开销 ,但 也 会 带 来 一 些 问题 。 如 果 循 环 计数 值 不 是 展开 次 数 的 倍数 怎么 办 ? 如 果 循环 计 
数值 比 展开 次 数 小 怎么 办 ? 在 5. 3 节 中 也 讨论 过 类 似 的 问题 。 本 小 节 将 讨论 如 何 用 汇编 语 
言 来 解决 这 些 问 题 。 

我 们 把 C PE ER memset 作为 研究 的 例子 ， 这 个 函数 把 从 了 地址。 开始 的 N 个 字 节 的 存 
丹 器 单元 赋 信 为 ce。 为 了 提高 这 个 函数 的 执行 效率 ,将 着 眼 于 对 输入 操作 数 不 增 加 额外 眼 
制 的 情况 下 ,分 析 如 何 展开 循环 。memset 函数 原型 如 下 ， | 


void my memset ( char * syint c, unsigned int N ) ; 


ERASOE REBUSSTRERAS STM 指令 一 次 写 人 多 个 字 节 。 因 此 ,首先 需要 将 数 
组 指针 s 边界 对 齐 。 但 是 ,只 有 在 足够 大 的 情况 下 , 才 值 得 这 样 做 。 在 不 能 确定 “足够 大 
的 ”准确 值 之 前 , 先 假定 一 个 极限 值 T ENST EANET ,数组 指针 s 边界 对 齐 。 而 且 Т, 
之 3, 因 为 如 果 数 据 大 小 不 到 4 字 节 ,那么 就 没有 字 边 界 对 齐 的 问题 了 。 

现在 假定 数组 s 边界 对 齐 , 使 用 批量 存储 指令 来 对 存储 单元 赋值 。 信 如 ,一 次 循环 使 用 
4 条 批量 存储 指令 ,每 条 指令 写 8 个 字 , 这 样 每 次 循环 就 可 以 操作 128 字 节 (32 个 字 ) 的 存 全 
单元 。 但 是 ,只 有 在 М>Т,;>128 的 前 提 下 才 值 得 这 么 做 ,这 里 T; 是 另 一 个 极限 值 。 

Б.Ш Е N< 了 ;个 字 节 要 设置 。 可 使 用 STR 指令 一 次 存 情 4 字 节 ,直到 N<<4, 再 
使 用 STRB 指令 单字 节操 作 剩余 的 字 节 单元 。 | 


[55.201 显示 循环 展开 的 memset RÀ, 

根据 前 而 提 到 的 方法 ,把 程序 分 成 3 ER. 由 于 没有 找到 最 佳 的 T 和 T: 值 ,程序 还 须 进 
一 步 讨论 。 

S RN Q current string pointer 

с RN 1 ithe character to Fill with 

N RN 2 {Ше number of bytes to Fill 
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c. 1 RN 3 ¡copies of c 
c 2 RN 4 

c3 ЕК 5 

c. d ЕН 6 

e 5 BN 7 

c6 RN 8 

c7 RN 12 


void my memset(char * s, unsigned int c, unsigned int N) 
my memszet 


E 
;First section aligas the array 


epine syedojeA^edg ulel[sÁS WAY 


CMP E, #T 1 :Ne know that T 1723 

ВСС memset IByteBlk sif (МТ 1) goto memset lByteBlk 

ANDS  c1,s, H3 ;Find the byte alignment of s 

BEQ aligned branch if already aligned 

RSB cl, cl, #4 ;number of bytes until alignment 

SUB N, N, c_1 ;number of bytes after alignment 

СИР c 1, #2 

SIRE с, [s], #1 

STRGEB с, [s], #1 pif (c 12:2) then output Byte 
176 STRGIB с, [=], #1 ;if (о 1223) then output Byte 

aligned . the s array is now aligned 
ORR c, c, c, LSD#8 jduplicate the character 
ORR C, с, с, LSLE 16 ;to Ё111 all four bytes of c 





;Second section writes blocks of 128 bytes 


Сир Н, ËET 2 We know that T 2 — 128 

BOC menset 4ByteBlk pif (N«T 2) goto memset, 4ByteBlk 
. ЕТМЕ) spl, (o 2-6 6) i8tack scratch registers 

MOV c. l.c 

MOV Cc 2. с 

MOV с_3, с 

MOV с4, с 
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SUB N, N, #128 bytes left after next block 
loopl28 ¿write 32 words = 128 bytes 

ТЫТА 851, (c, c 1-сб,с 7) write B words 

SIMIA 91, {с,с 1-С_б,с 7) write B words 

STHIA sl, ic, ci-c5,c 7) write B words 

SWIA  sl,íc,eoi-co65,c 7! write B words 

SUBS N, Н, #128 зрубе left after next block 

BGE loop128 

ADD Н, N, #128 ;number of bytes left 

LDMFD  sp!, (c 2-c.6] restore corrupted registers 


;Third section deals with left over bytes 
memset dByteBlk 

SUBS — N,N, H4 ;try doing 4 bytes 
loopi write 4 bytes 

STRGE с, [8], #4 

SUBGES Н, Н, #4 
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ВСЕ 190р4 
ADD N, N, #4 number of bytes left 
nenset_1ByteBlk 


SUBS N, N, #1 
loopl write 1 byte 
STRGEB c, [s], #1 
SUBGES N, N, #1 
BGE loopl 
MOV pe, lr sfinished so return 


现在 来 讨论 Ti 和 Ts 的 最 佳 值 。 首 先 须 分 析 不 同 范围 的 循环 计数 值 N。 由 于 算法 操作 
是 以 128 字 节 ,4 字 节 和 1 字 节 的 块 大 小 方式 进行 的 ,所 以 先 按 这 些 块 尺寸 来 分 解 N. 


N=128N,+ Nat N,,(0 < N,<32, 0 < М<4) 


这 样 就 可 以 分 成 3 种 情况 来 讨论 。 下 面 关于 指令 周期 计数 的 详细 内 容 , 需 要 参考 附录 
也 关于 指令 周期 定时 的 有 关内 容 。 


€ б&М<Т, 在 ARM9TDMI 上 ,上 述 程序 包括 返回 共 占 用 5N 十 6 个 周期 。 

e TNT, 如 果 数 组 :是 字 对 齐 的 , 则 第 1 个 算法 块 占用 了 6 个 周期 ;否则 为 
10 个 周期 。 假 如 每 一 种 边界 都 近似 相同 ,那么 平均 占用 (6 十 10 十 10 十 10)/4=9 个 
周期 。 第 2 个 算法 块 占用 了 6 个 局 期 。 最 后 一 块 占用 了 5(2N,--N,) -5(N, +Z) 
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十 2 个 周期 ,这 里 如 果 Ni; 二 0, 则 ZL 是 1; 否则 和 ZZ 为 0。 央 此 这 种 情况 下 总 共 占 用 
7 5032№ +N, ++) 4-17 个 周期 。 

e N2T, 与 前 一 种 情况 相同 ,第 1 个 算法 块 平均 占用 了 9 个 周期 。 第 2 个 算法 块 占 
用 了 363 +21 个 周期 ， 最 后 一 个 算法 块 占用 了 503. TZ, LN +2Z)+2 个 周期 ， 
这 里 如 果 N =0, NJ ZELEN 乙 为 0。 因 此 这 种 情况 下 总 共 占 用 了 36N, 十 
5 {Ns 十 Zi 十 Ni 十 加) 十 32 个 周期 。 


表 6.2 总 结 了 这 些 结果 。 比 较 表 中 的 3 行 ,可 以 清楚 地 看 到 ,只 要 Na 之 1, 第 2 行 的 值 
就 小 于 第 1 行 ,除非 N, 一 1 或 N. =0, BE Ti 一 5, 从 第 1 行 和 第 2 行 来 选择 最 佳 的 周期 
数 。 只 要 当 NCR1 时 ,第 3 行 的 值 就 小 于 第 2 行 的 值 。 因 此 取 Т,=128, 

36.2 不 同 范围 N 值 的 指令 局 期 数 





N EIS di Жж 
о N«Ti 840N, + 20Na 5N, F6 
TENET: 160N, 十 SNm 十 5Ni 十 17 十 52 


Nz: T: 3J6NzTSN I TSN 321 SZ; +5Z, 


这 个 详细 的 例子 显示 了 如 何 使 用 极限 值 来 展开 比较 重要 的 循环 ,以 及 在 可 能 的 计数 输 
人 范围 内 获得 较 好 的 性 能 ， 


6.63 SEREEN 


БИКЕ Е РЛАР? 实际 上 ,一 个 计数 器 就 可 以 满足 对 循环 计数 
总 值 不 超过 32 位 的 循环 体 。 我 们 可 以 把 多 个 循环 计数 值 组 合 放 在 一 个 寄存 器 ,最 内 层 的 特 
环 计数 值 放 在 寄存 器 的 最 高 位 。 本 小 节 给 出 了 一 个 例子 ,以 说 明 如 何 做 这 件 事 ,循环 计数 从 
max—1 减 到 0, 计 数值 变 成 负数 财 循环 结束 。 


[Bj 6.21】 显示 如 何 把 3 个 循环 计数 值 合并 成 一 个 循环 计数 值 。 


假定 要 把 矩阵 ВУС ШЖ ЕЙЕЛ А ИН A HH А, B,C 的 尺寸 不 变 ; 假 定 
有 ,5S, 工 是 相对 比较 大 但 小 于 256 的 。 


Matrix А, Е гому + T columns 
Matrix В, R гона * S columns 
Matrix C. S rows * T columns 


用 矩阵 名 字 的 小 写字 母 来 表示 投向 矩阵 的 指针 ,就 是 指向 _ 个 以 行 排列 的 字数 组， 此 
如 ,元 素 在 ;行列 ,那么 АП, 门 就 是 在 字 忆 地 址 
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&A[i, jj=a+4* (ix T+j) 
使 用 3 个 循环 计数 值 i,j,k, 下 面 的 C 代码 实现 了 这 个 矩阵 乘法 的 功能 : 


#define R 40 
#define S 40 
#define T 40 


void ref matrix mul ( int жа, int *b,int *c) 
{ 
unsigned int i,j,k; 


int sum; 
for ( i=0;j<R;i++) 
| 
for(j=0;j<T;j ++) 
{ 
/ * calculatea[i, j] * / 
sum = 0; 
for(k = 0;k<s;k ++) 
{ 
/ жада b[ i, k] * c[k,j] */ 
sum += b[i*s+k] * c[k«T* j]; 
) 
ali*T+j]=sum; 


) 
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) 
) 


这 里 ,有 许多 方法 可 改进 程序 的 执行 效率 ,例如 ,可 以 通过 改进 地 址 下 标 计算 ,浓缩 循环 
结构 。 给 3 个 循环 计数 值 i,j,k 分 配 一 个 寄存 器 计数 值 count; 


Bit 31 24 23 16 15 8 7 0 


count= | 





注意 ; 由 于 k 的 原因 ,S 一 1 一 & 的 计数 是 从 S 一 1 一 0, 而 不 是 从 0 一 S 一 1 。 


下 面 的 汇编 代码 使 用 一 个 循环 计数 寄存 器 count ЖЖ Y E КЖК: 


R EQU 40 
5 EQU 40 





2 
< 
en 
$ 
Ф 
3 
y 
Š 
e 
D 
- 
о. 
Ф 
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Т EQU 40 
а RN О 
b RN 1 
c RN 2 
sum RN 3 
iwal RN 4 
cval RN 12 
count RN 14 





;points to an R rows x T columns matrix 


;points to an R rows x 5 columns matrix 


ipoints to an Š rows x T columns matrix 


;void matrx mul(int жа, int xb, int жс) 


matrix mul 
STMFD 
MOV 
loop i 
ADD 


loop.j 


loop k 


spl, ird, irj 
count, d (R- 1) 


1=0 


count, count, #(T-1)<¿ 8 1j 7-0 


count, count, # (5-1) «« 16 {к= 0 


sun, #0 


bwal, [5]. #4 
cval, [c], 44» T 
count, count, 1 <е 16 


sun, bval, cval, sum 


;bval- BL i,kl, b= SB[i.k t 1] 
;cval = tik, j}; c= &(k t 1,j] 
;k 十 十 


{Бш + = bval*cval 


loop К branch if k$- 1 

sun, [a], #4 iM 1, j] = sum, а= &A[ 1] +1] 
C, C, HA«S«T {с = &C[ 0, j] 

c, c, #4 фес = & [0,41] 

count, count, (1 << 16)- (1 << B) ;zero (5- 1- ), j++ 
b, b, #4d#8 Б = &8[ 1,0] 

loop j branch if 4521-1 

с.с, H4n T 5C= 8010,0] 


count, count, # (1 << B)-i 
loop i 


ар!, (r4, pc! 


zero (T-1- J), i++ 
jbranch if ixCR- 1 
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上 面 的 程序 结构 比 一 般 的 实现 节约 了 2 个 寄存 器 。 首 先 ,对 count 的 位 16 一 23 进行 减 
1 运算 ,直到 结果 为 负数 ,这 个 做 法 完成 了 5 一 1~0 的 循环 &。 一 旦 这 个 结果 为 负数 ,代码 便 
用 加 2" 来 清除 位 16 一 31。 然 后 通过 对 count 的 位 8—15 W 2 来 完成 循环 ;}。 可 以 使 用 一 
条 ARM 指令 来 高 效 地 编码 常数 24 —2* =0xFF00, count 的 位 8—15 的 计数 为 T 一 1~0。 
当 组 合 的 加 和 减 的 结果 为 负 时 ,也 就 完成 了 循环 ;}。 对 循环 i 也 采用 相同 的 处 理 方法 。 可 以 
看 到 ,ARM 对 加 \ 减 法 指令 的 宽 范围 常数 移 位 处 理 能 力 ,使 这 种 处 理 机 制 非常 有 效 。 


6.64 ”其 它 计 数 循环 


在 循环 体 中 ,有 时 循环 计数 值 是 作为 一 个 输入 值 参与 运算 的 ;而 且 , 也 并 不 是 在 所 有 情 
况 下 ,循环 计数 值 计 数 都 是 从 N 减 到 1 或 者 从 N 一 1 减 到 0。 比 如 , 若 依 次 从 一 个 数据 寄存 
器 选择 某 些 位 , 则 需要 一 个 每 次 循环 乘 以 2( 即 2 的 者 ) 的 屏蔽 。 

下 面 将 介绍 一 些 不 同 计数 形式 的 循环 结构 。 这 些 例 子 都 只 使 用 了 一 条 有 分 支 功能 的 条 
件 执行 指令 来 实现 循环 。 


这 个 循环 的 计数 值 计 数 一 N 一 0( 包 含 或 不 包含 ) ,每 次 累加 的 大 小 是 STEP. 


RSB i,N, #0 ;i= -N 
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; loop body goes here and i= - N, -N + STEP, =, 
ADDS 1,1, # STEP 
BLT loop ;use ВІТ or BLE to exclude 0 or not 


这 个 循环 结构 每 次 以 2 BRE, 2 递减 到 1。 比 如, N=4, 计 数值 为 16,8,4,2,1。 


MOV і, #1 

MOV i,i ,LSL N 
loop 

;1oop body 

MOVS i,i,LSR#1 

BNE loop 


下 面 的 循环 结构 计数 值 从 N 位 屏蔽 到 1 位 屏蔽 。 比 如 ,N=4, 计 数值 为 15,7,3,1。 


MOV 1, $1 
RSB i,i,i,LSL N, ;i = (1 << N) -1 
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loop 
loop body (Ж) 
MOVS i,jiLSRitl 
BNE loop 


4 6 ERGEN 

€ 对 ARM 来 说 ,需要 2 条 指令 来 实现 一 个 计数 循环 ;一 条 设置 标志 的 减法 指令 和 一 
条 条 性 分 支 指令 。 

e 震 开 循环 可 以 改善 性 能 。 但 不 要 过 度 展开 ,因为 这 会 影响 cache 的 性 能 。 只 有 对 大 
的 循环 次 数 的 循环 进行 展开 才 有 意义 ,对 于 德 环 次 数 很 少 的 循环 展开 并 不 能 提高 
效率 。 

e 多 层 典 套 的 循环 只 带 要 一 个 循环 计数 寄存 器 。 这 样 做 可 以 节省 寄存 只 ,以 作 它 用 。 

e ARM 可 以 高 效 地 实现 以 负数 和 对 数 方式 索引 的 循环 ， 


6.7 位 操作 
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压缩 的 文件 格式 以 位 的 粒度 来 打包 数据 项 ,以 获得 最 高 的 数据 密度 。 这 些 数据 项 或 者 
是 固定 宽度 的 ,或 者 是 可 变 长 度 的。 比如 用 来 表示 长 度 的 域 或 者 表示 版 本 的 域 就 是 固定 宽 
度 的 ;而 Huffman 编码 就 是 可 变 宽 度 的 ,因为 Huffman 编码 是 与 特征 位 有 关 的 编码 方法 ， 
因而 它 赋 予 出 现 频 度 较 高 的 信和 号 以 较 短 的 编码 ,而 对 很 少 出 现 的 信号 赋予 较 长 的 编码 。 

本 节 将 讨论 如 何 高 效 地 处 理 仑 凝 (bitstream) 。 首 先 论 述 固定 宽度 的 编码 ,然后 是 可 变 
宽度 的 编码 。7. 6 市 会 介绍 一 般 的 位 操作 程序 ,如 位 反 转 和 字 节 排列 方式 (大 小 端 ) 等 。 


6.7.1 男 定 宽度 的 位 域 打包 和 解 包 


如 果 事 先 已 经 设 定 了 屏蔽 码 ,那么 从 ARM 寄存 器 的 任意 位 置 裁 取 一 个 无 符号 的 位 域 
只 需要 1 个 周期 ;否则 需要 2 个 周期 。 截取 一 个 带 符 号 的 位 域 一 般 需要 2 个 周期 ,除非 位 域 
正好 位 于 ~- 个 字 的 高 位 顶部 (此 时 位 域 的 最 高 符号 位 就 是 寄存 器 的 最 高 符号 位 )。 在 ARM. 
上 上 ,一般 使 用 逻辑 操作 和 桶 形 移 位 器 来 打包 和 和 解 开 代码 ,请 参见 下 面 的 例子 . 


СЯ 6. 22] 显示 如 何 把 寄存 器 ro 中 的 位 4~15 提取 出 来 ,结果 放 到 寄存 器 ТІ, 


;unsigned unpack with mask set up in advance 
mask = 0х00000ЕЕЕ 
AND rl mask, rü, ЗАЙ 4 
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; unsigned unpack with no mask 
MOV rl,.rD0,LSLjbi6 ;discard bits 16-231 
MOV rl.rl,LSR1 20 discard bits 0—3 and zero extend 


:8igned unpack 

MOV — rl,r0,LSL d 16 discard bits 16--31 

MOV — rl,rl,ASRg 20 ;discard bits 07-3 and sign extend 

[516.23]. 把 +1 的 值 放 人 寄存 器 70 的 特定 位 域 中 。 

AUR rl 的 值 已 经 被 限定 在 正确 的 范围 内 ,ro 的 相应 位 也 被 清除 ,那么 就 只 需要 1 个 周 
期 。 在 这 个 例子 中 ,把 rl 的 12 位 数据 插 人 到 го 的 位 415. 


spack rl into rO 
ОВЕ rO, rO, ri, LSL #4 


否则 就 需要 设置 一 个 屏蔽 寄存 器 : 
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pack rl into гд 

mask = ©х00000ЕЕЕ set up in advance 

AND — ri,rl,mask ;限制 rl 范围 
BIC rO,rO,mask,LSL #4 ;清除 目标 位 
ORR — rO,rO,rl,LSL #4 ;拼接 新 数据 
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6.7.2 可 变 宽度 编码 的 位 流 打 包 


这 里 的 任务 是 要 把 一 系列 可 变 长 度 的 代码 打包 生成 一 个 位 流 。 典 型 的 就 是 把 长 度 不 定 
的 Huffman 编码 或 者 其 它 算术 编码 数据 压缩 成 一个 数据 流 。 但 这 里 并 不 关心 所 用 的 编码 
方式 的 效率 ， 

首先 需要 仔细 地 了 解 打包 数据 的 字 节 排列 方式 。 许多 压缩 文件 格式 使 用 大 端 方式 打 
包 , 这 种 方式 下 ,第 一 个 数据 的 编码 放置 在 第 一 个 字 节 的 最 高 端 ， 为 了 统一 起 见 ,下 面 的 旋 
子 都 采用 了 大 端 方式 打包 。 这 种 方式 有 时 也 被 称 为 网 络 次 序 Cnetwork order), 图 6.5 W. 
示 了 如 何 使 用 大 端 方式 把 长 度 不 定 的 位 编码 打包 成 一 个 字 节 流 。high 和 low 表示 字 节 的 
最 高 位 和 最 低位 。 | 

为 了 在 ARM 上 高 效 地 实现 打包 工作 ,我 们 使 用 一 个 32 位 的 寄存 器 作为 缓冲 器 ,以 大 
NO GORGE 4 字 节 的 数据 。 换 句 话说 ,就 是 把 字 节 流 中 的 字 节 0 放 在 寄存 器 的 最 高 8 i. 
然后 ,依次 从 高 位 到 低位 ,每 次 把 一 个 编码 插 人 寄存 器 ， 

一 旦 寄存 器 满 , 就 把 32 位 数据 存放 到 存储 器 。 注 意 对 一 个 大 端 方式 的 存储 系统 ,可 以 
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Hign Low HighLow High Low High Low High Low 


图 6.5 大 端 方式 下 位 编码 打包 成 一 个 字 节 流 
不 加 任何 修改 来 存储 一 个 字 ; 而 对 小 端 方式 的 存储 系统 ,就 需要 在 存储 一 个 字 之 前 调整 字 节 
NE 
存放 插入 编码 的 寄存 器 称 为 bitbuffer, 现在 还 需要 一 个 寄存 器 bitsfree 来 记录 bitb- 
uffer 中 没有 被 使 用 的 位 的 数量 。 换 名 话说 ,bitbuffer 中 包含 了 “32-bitsfree” 个 编码 位 ,和 
“bitsfree” 个 0 位 , 见 图 6.6。 要 把 k 位 的 编码 插入 bitbuffer, 就 要 从 bitsfree 减 去 k, 然 后 对 
编码 左 移 bitsfree 位 后 插入 。 


图 6.6  bitbuffer 的 格式 


同时 也 要 注意 边界 对 齐 问题 。 由 于 字 节 流 不 保证 字 边 界 对 齐 , 所 以 不 能 使 用 字 访 问 来 
写 人 。 为 了 能 够 采用 字 方 式 访问 ,可 以 退 后 到 从 上 一 个 字 对 齐 的 地 址 开始 。 用 32 位 的 寄存 
器 bitbuffer 填充 前 面 的 那些 数据 ,这 样 就 可 以 使 用 32 位 的 字 进 行 读 / 写 了 。 


【 例 6.24】 提供 3 个 函数 bitstream_write_start, bitstream. write. code, bitstream _ 
write, flush, 

由 于 这 3 个 函数 假定 了 寄存 器 在 2 个 函数 调用 之 间 是 受 保护 的 ,因此 它们 并 不 是 AT - 
PCS 标准 兼容 的 函数 。 实 际 上 ,这 也 不 是 什么 问题 ,因为 可 以 使 用 内 联 这 些 函 数 的 代码 , 同 
时 可 以 提高 效率 。 

bitstream_write_start 函数 的 功能 是 使 位 流 指针 bitstream 的 边界 对 齐 , 并 初始 化 32 位 
缓冲 器 bitbuffer。 每 次 调用 bitstream_write_code 函数 插入 一 个 位 长 度 codebits 的 值 
code。 最 后 ,bitstream_write_flush 函数 把 剩余 的 字 节 写 人 位 流 来 结束 。 


bitstream RN 0 ;current byte address in the output bitstream 
code RN4 ;current code 

codebits RN5 ;length in bits of current code 

bitbuffer RN6 ;32-bit output big - endian bit buffer 
bitsfree RN7 ;number of bits free in the bit buffer 


tnp RN8 scratch register 
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mask BN 12 ;endian reversa] mask OxFEFFDOFF 


bitstream write start 


MOV bitbuffer, #0 

MOV bitsfree, 32 
align loop 

TST bitstream, #3 


LDRNEB code, [bitstream, # -1]! 
SUBRE bitsfree, bitsfree, HH 
ORRNE bitbuffer, code, bitbuffer, ROR #8 


BNE align loop 
MOV bitbuffer, bitbuffer, ROR #8 
MOV рс, lr 


bitstream write code 
SUES bitsfree, hitsfree, codebits 
BLE full buffer 
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ORR hithuffer, bitbuffer, code, LSL bitsfree 
MOV pe. lr 
full buffer 
RSB bitsfree, bitsfree, #0 
ORR bitbuffer, bitbuffer, code, LSR bitsfree 185 


IF (ENDIAN) - "little" 
ibyte reverse the bit buffer prior to storing 
EOR tmp, bitbuffer, bitbuffer, FOR #16 
AND бар, mask, tmp, LSR 8 
EOR bitbuffer, tmp, bitbuffer, ROR #8 


ENDIF | 
STR bitbuffer, [bitstream], #4 
RSB bitsfree, bitsfree, # 32 

MOV bitbuffer, code, LSL bitsfree 
MOV pc, lr 


bitstream write flush 

RSBS bitsfree, hitsfree, {32 
flush loop 

MOVGT bitbuffer, bitbuffer, ВОВ # 24 
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STRGTB bitbuffer, [bitstream], #1 
SUBGTS bitsfree, bitsfree, #8 
BGT ` flush_loop 

MOV рс, 1г 





6.7.3 ”可 变 宽 度 编码 的 位 流 解 包 


解 开 一 个 可 变 宽度 编码 的 位 流 要 比 打 包 困 难得 多 ,主要 是 因为 通常 不 知道 正在 解 的 位 
流 中 的 编码 宽度 。 对 Huffman 编码 的 位 流 , 必 须根 据 一 串 位 的 顺序 来 得 到 编码 的 长 度 并 计 
算出 相应 的 编码 。 

这 里 将 使 用 查 表 的 方法 来 提高 解 包 的 速度 。 这 种 方法 是 取 位 流 的 后 续 N 位 ,然后 在 2 
个 表 look_codebits[] 和 look_code[] 中 进行 查找 ,每 一 个 表 的 大 小 是 2 个 项 。 如 果 这 N 位 
可 以 决定 编码 ,那么 从 这 2 个 表 中 就 可 以 分 别 得 到 编码 长 度 和 编码 值 。 如 果 这 N 位 不 能 够 
决定 编码 ,那么 表格 look_codebits 将 会 返回 一 个 退出 值 Oxff ,表示 这 种 情况 是 例外 。 

在 一 个 Huffman 编码 序列 中 ,使 用 频率 高 的 编码 长 度 较 短 ,使 用 频率 低 的 编码 长 度 较 
长 。 因 此 ,可 以 使 用 查 表 的 方法 快速 解码 使 用 频率 高 的 编码 。 在 下 面 例子 中 , 设 М=8,Ж 
的 大 小 为 256 项 。 


[56.25] 提供 3 个 函数 来 完成 对 一 个 大 端的 位 流 进行 解 包 。 

同 例 6. 24, 这 几 个 函数 不 符合 ATPCS 标准 ,一 般 需 要 使 用 内 联 函 数 。 函 数 bitstream_ 
read. start 初始 化 程序 ,开始 对 位 于 字 节 地 址 bitstream 的 位 流 进行 解码 。 每 次 调用 函数 
bitstream_read_code, 就 在 寄存 器 code 中 返回 下 一 个 编码 。 这 个 函数 只 对 能 从 查找 表 中 读 
到 的 短 编码 进行 处 理 ,长 编码 在 标号 long code 处 被 处 理 , 但 这 个 功能 的 实现 依赖 于 正在 解 
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码 的 具体 要 求 。 
这 段 代 码 使 用 了 一 个 寄存 器 bitbuffer, 包 含 了 从 最 高 符号 位 开始 的 N 十 bitsleft 个 编码 
位 ( 见 图 6.7), 
31 0 
bitbuffer = [ET о | 
图 6.7 bitbuffer 的 格式 
bitstream RN 0 ;current byte address in the input bitstream 
look code RN 2 ;lookup table to convert next N- bits to a code 
look codebits RN 3 ; lookup table to convert next N- bits to a code length 


code RN 4 ¿code read 
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codebits RE 5 ;length of code read 

bitbuffer RN 6 132 — bit input buffer (big endian) 

bitsleft RN 7 ;number of valid bits in the buffer - N 

tup RN 8 ;scratch 

tnp2 RR 9 scratch 

mask FE 12 N- hit extraction mask (1 << N) - 1 

N Ев ,use a lookup table on 8 bits (N must be < = 9) 


bitstream read start 
MOV bitsleft, #32 
read fill loop 
LDRB tmp, [bitstream], #1 
ОВЕ bitbuffer, tmp, bitbuffer, LSLH8 
SUBS bitsleft, bitsleft, #8 
BGT read fill loop 
MOV bitsleft, # (32 —N) 
MOV mask, X(1 << М) -1 
MOV pc, lr 
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bitstream read code 
LDRB . codebits, [look codebits, bitbuffer, LSR# (32 - М] 
AND code, mask, bitbuffer, LSR# (32 — N} 
LDR code, [look code, code, [21:2] 
SUBS bitsleft, bitsleft, codebits 
BMI enpty buffer or long code 
MOV bitbuffer, bitbuffer, LSL codebits 
MOV рс» іг 
enpty huffer or long code 
TEQ — codebits, #0xFF - 
BEQ long code 
empty buffer - fill ор with 3 bytes 
{аа N < = 9, we can Fill З bytes without overflow 
LDRB tmp, [bitstream], #1 
LDRB tmp2, [bitstream], #1 
MOV bitbuffer, bitbuffer, LSL codebits 
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LDRB codebitsg, [bitstream], #1 

ORR tmp, tmp2, tmp, LSL# 8 

RSB bitsleft, bitsleft, #(8- N) 

ORR tmp, codebits, tmp, LSL# 8 

ORR bitbuffer, bithuffer. tmp, L&L bitsleft 
RSB bitsleft. bitsleft, #(32- 8) 

MOX pe, lr 


long code 
handle the long code case depending on the application 
here we just return a code of ~1 
MOV code, # -1 
MOV pe, lr 


计数 器 bitsleft 实际 上 计算 了 在 缓冲 器 bitbuffer 中 剩余 的 小 于 N 位 的 下 一 次 查 表 所 需 
要 的 位 的 数目 。 只 要 bitsleft 闻 0, 就 可 以 进行 下 一 次 查 表 。 一 且 bitsleft<<0, 就 会 有 两 种 可 
能 :一 种 可 能 是 找到 了 一 个 有 效 的 编码 ,但 没有 足够 的 位 来 查找 下 一 个 编码 ; 另 一 种 可 能 是 
codebits AA T iB HUB ох, 以 指出 编码 长 于 N 位 ,这 两 种 情况 都 可 以 通过 调用 empty. 
buffer_or_long_code 来 捕获 。 如 果 缓 冲 回 为 空 AERA 24 位 ， 如 果 发 现 了 一 个 长 编 
码 ,就 跳 转 到 long code 处 。 
在 ARM9TDMI 上 ,该 示例 的 最 好 性 能 是 ,每 个 编码 的 解码 只 需要 TNR. BE 
提前 知道 编码 打包 时 的 位 域 宽 唐 ,那么 还 下 以 获得 更 优 的 性 能 ， 
A 5 (RAE | 
e ARM FUERZA ЖИЛЕ ЕУ ДЕ K HXI ШОТТ ЕЛЕЕ Е. 
e 可 以 使 用 一 个 32 DEO aysa E Ufer DE ar ЖО w h [a] (EC, BP RE 4 9 fr as 
XBUHV ЕШ PARRA Н. 
e 为 了 高 效 地 对 位 流 进行 解码 ,使 用 查 表 方 法 来 扫描 位 流 中 的 后 续 N u. S DEOR 
可 以 对 长 度 小 于 或 等 于 N 位 的 位 流 直 接 返 回 编码 ,或 者 对 长 编码 返回 一 个 退出 值 ， 


6.8 高 效 的 switch 





一 条 switch 或 多 路 分 支 语 旬 表示 在 多 个 不 同 的 动作 之 闸 进 行 选择 。 在 这 里 假定 这 些 
不 同 的 动作 依赖 于 一 个 变量 x。 对 不 同 的 x 值 ,需要 执行 不 同 的 动作 。 本 节 将 讨论 对 不 间 
类 型 的 x, 如 何 用 汇编 语言 高 效 地 实现 switch 结构 。 
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6. 8.1 EE Occ x« № 的 switch 


这 个 例子 中 心 ERE ref switeh 根据 不 同 的 > (АЙТ T ЖЕКЕ. ХШ ИЗЕЛ, x 的 
值 在 范围 028, 


lnt ref switch ( int x) 
í 
switch (x) 
i 
case 0 ; return method 0 (); 
сазе 1 ; return method 1 (); 
case 2 ; return method 2 (); 
case 3 ; return method 3 (); ü 
case 4 , return method 4 (); 
case 5 ; return method 5 0; 
case 6 , return method 6 (); 


cage 7 , return nethod 7 (5, 


epo2 Аашәѕѕү уу OurziLutdo аму Өшшдд 9 


default ; return method d () } 


1 
1 


用 ARM 汇编 来 实现 这 种 结构 ,有 两 种 有 效 的 方法 。 第 一 种 方法 是 使 用 一 个 函数 地 址 
的 表格 ,通过 x 的 值 从 表格 中 索引 并 装载 pc, 


[f 6.26] switch, absolute 代码 使 用 一 个 内 联 的 BRE f Г ЖО ЗЕН switch Hj, 


x RN D 


rint switch absolute(int x) 


switch absolute 


CMP x, EB 
LDRLT ре, Гре, x, 15182] 
B method d 


DCD method, 0 
DCD method 1 
mp method 2 
DCD method 3 
DCD method 4 
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DCD method 5 
DCD method 6 
DCD method 7 


由 于 pc 寄存 器 是 流水 化 操作 的 ,所 以 这 个 程序 可 以 正确 执行 。 当 ARM 执行 LDR 指 
令 时 ,pe 指向 字 method 0. 

上 面 的 这 种 方法 执行 速度 很 快 ,但 是 有 一 个 缺点 :由 于 存储 的 是 毅 数 的 绝对 地 址 ,这 样 
代码 就 不 是 位 置 无 关 的 。 位 置 无 关 的 代码 通常 是 模块 化 的 ,并 存 运 行 时 才 被 装 入 系统 。 下 
面 的 例子 将 介绍 如 何 和 解决 这 个 问题 。. 


С 6.27) 这 里 的 代码 switch relative 与 上 面 的 switch absolute 相 比 ,执行 速度 相对 
惕 一 点 。 但 是 这 段 代 人 码 是 位 置 元 关 的 ， 


pint switch relative(int x) 
switch relative 
CHP x, ЁЗ 
ADDLT ре, pe» x, LSLE? 
method d 
method 0 
method 1 
method 2 
method 3 
method 4 
method 5 
method 6 
| method 7 


还 有 最 后 一 个 优化 可 以 做 。 如 果 功 能 函数 比较 短 OA u ЕЕ RE P Ao 
蔡 分 支 指令 。 


[916.28] 假定 每 一 个 跳 转 功能 都 由 4 条 指令 来 实现 。 那 么 就 可 以 用 下 击 的 代 禄 ， 


ш ш ш шт ш toi т ш 


СМР х,ф8 
ADDLT рс, рс, x, Т4 :each method is 16 bytes long 
B method d 

Method 0 


ithe four instructions for method 0 go here 
method 1 
;the tour instructions for method 1 go here 


p- Continue in this way» 
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6.8.2 基于 通用 变量 x 的 switch 


现在 假定 x 不 是 像 6.8. 1 小 节 中 那样 在 0 到 一 个 较 小 的 范围 内 ,那么 如 何 才能 在 不 轮 
流 测试 每 种 可 能 的 x 值 的 情 沈 下 ,高 就 地 实现 switch 结构 呢 ? 

在 这 种 情况 下 ,可 以 使 用 一 种 非常 有 用 的 技术 , 即 散 列 《hashing) 函数 。 散 列 函 数 可 将 
ПВА у= f (z) 中 我 们 感 兴趣 的 值 映射 到 一 个 连续 的 范围 Os y N. 这样, 可 以 把 基 
T ox Hj switch, PRAET у= f (z), ШЖ ЖИТ Ж, ДОШ Ж 2 z BR S RI. у, 
么 也 会 出 现 问题 。 这 种 情况 下 ,就 须 使 用 额外 的 代码 来 测试 可 能 导致 冲突 的 所 有 可 能 的 > 
的 值 。 但 是 对 我 们 这 里 的 目的 ,一 个 好 的 散 列 函数 应 该 是 很 容易 计算 得 到 的 ,不 会 出 现 很 多 
HE, 

为 了 执行 这 种 switch, RATIA 835830 t PS02108 y 使 用 6.8.1 小 节 中 优化 过 的 
switch fU, # 24 z S&S SIR T EXPL y 的 地 方 ,需要 执行 一 个 显 式 的 测试 ;但 对 于 
一 个 好 的 散 列 函数 ,这 种 测试 应 该 是 罕见 的 ， 


[И 6. 29] 假定 对 8 种 可 能 的 &, 当 z=2* 时 ,要 调用 method_k。 换 名 话说 ,我 们 希望 
switch RÆ ÉE z 值 等 于 1,2,4,8,16,32,64,128 时 。 对 于 其 它 的 工 值 ,只 贫 调用 一 个 默认 
的 method d 国 数 。 需 要 找 一 个 2 HRR 1 НЕЕ IS CAU S S. SERT AS IRIS REX. 
发 现 15X31Xz 对 每 一 个 switch 值 在 位 9 一 11 有 不 同 的 值 。 这 意味 着 可 以 使 用 这 个 乘积 
的 第 9—11 位 来 作为 我 们 的 散 列 函数 。 

下 面 的 汇编 代码 switch_hash 使 用 这 个 散 列 施 数 执行 这 个 switch。 注 意 其 它 不 是 2 的 
竺 的 值 将 对 应 相同 的 散 列 信 。 这 样 switch 语句 的 各 种 情况 就 转化 成 了 一 个 简单 的 可 以 明 
确 测试 的 2 BN. WX x KA 2E EA ЦИ Н ЯТА B method. d, 


SPOD Álquuiessv WAY Durzuuldo ONY BUM o 


pint switch hash(int x) 
switch hash 


hash, х, X, LSLjL4 shash=x#15 
hash, hash, hash, LSL#5 ;Һазһ=х#15 #31 
hash, hash, #7 << 9 Dask out the bash value 


pe, pc, hash, LSR# 6 


x, #0х01 
method 0 


B á 8 š š Ë B 
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TEQ x, #0х02 
BEQ method 1 
ТЕО x, {00х40 
BEQ method 6 
TEQ x, 0х04 
method 2 
x, Ё 0х80 
nethod 了 
x, Ё 0х20 
method 5 
x, d0x10 
method, 4 
x, # 0x08 
method 3 
nethod d 


J Ё ERK switch 


€ 对 于 NN 信和 比较 小 的 情况 ,应 确保 swith 的 判断 值 x 在 范围 0 委 x< Ni; 也 可 以 使 用 一 
个 散 列 (hashing) 郑 数 来 达到 这 个 目的 。 

e 使 用 switch 判断 值 来 索引 包含 跳 转 函数 指针 的 表格 ,或 者 跳 转 到 有 规则 间隔 的 短 代 
码 段 。 第 2 种 方法 是 位 置 无 关 的 ,而 第 1 种 方法 不 是 ( 见 6.8.1 小节) 。 


6.9 ”边界 不 对 齐 数 据 的 处 理 


opino suSdojeASd wuelsAS уугу 
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如 果 load 或 store 指令 使 用 的 地 址 不 是 传输 数据 宽度 的 倍数 ,那么 就 称 为 边界 不 对 齐 
的 数据 访问 。 为 了 使 代码 对 于 不 同 的 ARM 体系 结构 和 实现 有 良好 的 可 移植 性 ,应 避免 边 
界 不 对 齐 的 数据 访问 。5. 9 节 介 绍 了 用 C 实现 对 边界 椒 对齐 数 据 访问 的 解决 方法 。 本 节 将 
讨论 如 何 用 汇编 代码 来 处 理 边界 不 对 齐 的 数据 访问 。 

最 简单 的 方法 是 使 用 一 次 只 传送 一 字 节 数据 的 字 节 装载 和 存 销 。 对 于 任何 非 速度 敏感 
的 访问 ,这 是 一 种 值得 推荐 的 方法 。 下 面 的 例子 显示 了 如 何 使 用 这 种 方法 来 访问 字 变量 。 


【 例 6. 303 显示 使 用 边界 不 对 齐 的 地 址 р 来 读 / 写 一 个 32 位 字 ， 


使 用 了 3 个 临时 寄存 器 t0,tl 和 2 来 避免 流水 线 互 镇 。 所 有 边界 不 对 齐 的 字 操 作 ,在 
ARM9TDMI 上 要 占用 7 个 周期 。 


ЖЖ: 对 春情 格式 分 别 为 大 端 和 小 端的 32 性 教 的 接 作 要 使 用 不 同 的 函 载 处 理 ， 





р RN Ú 
x RN i 
+0 RN 2 
tl RN 3 
2 RN 12 


;int load 32 little(char * p) 


load 32, little 
LDRB 
LDRB 
LDRB 


xlo] 

tO, [p, #1] 

tl, ip, #2] 

t2, (p, #3] 

x, x, tO, LSLS 
x, x, 1, LSL# 16 
rÜ, x, t2, LSL3E 24 
рс, lr 


sint load 32 big(char * p) 


load, 32 big 
LDRB 
LDRR 
LDRB 


;void store 32 little(char *p, int x) 


store 32 little 
STRB 
MOV 
STRE 
MOV 
STRB 
MOV 
STRB 


х,[р] 

to, Гр, #1]. 

tl, Гр, #2] 

t2, [p, #3] 

x, 10, x, LLH 8 
x, tl. x, 58 
rÜ, t2, x, LSL#8 
рс, lr 


x [p] 

tü, x, ISR] 8 
+0, Гр, #1] 
tO, x, LSR# 16 
t0, [p, #2] 
tū, x, LSRdt 24 
+0, Гр, #3] 
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Store 32 big 
MOV 
STRB 
MOV 
STRB 
MOV 
5ТЕВ 
STRE 
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gum RN 0 
N ‚ ВНІ 
data RN 2 
н RN 3 
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MOV — 








;void store 32 big(char * p, int х) 


t0, x, LSR4 24 
to. [pf 

t0, x, LRH 16 
to, [p, #1] 
tO, x, LSR#8 
to, [P: #2] 
x. Lp: #3] 
pc, lr 


如 果 对 每 次 访问 要 达到 比 7 个 周期 更 好 的 性 能 ,那么 就 要 编写 以 上 程序 的 几 个 不 同 的 
变 体 , 每 个 变 体 处 理 不 同 的 地 址 边界 情况 。 这 样 对 边界 不 对 齐 数据 的 访问 操作 可 以 减少 3 
个 周期 :1 条 字 装 载 和 2 条 算术 指令 。 


СИ 6. 31] 显示 对 于 起 始 地 址 边界 可 能 不 对 齐 的 字数 据 , 生 成 N 个 字 的 校 验 和 。 这 向 
代码 是 针对 小 端 存储 系统 来 编写 的 。 注 意 如 何 使 用 汇编 器 保留 字 MACRO 来 生成 4 BERE 
РЕ checksum, 0, checksum, 1, checksum, 2 和 checksum. 3, 程序 checksum a 处 理 了 数据 起 
始 地 址 是 49 十 a 形式 的 情况 ， 

使 用 宏 定义 可 简化 编程 。 我 们 只 须 编 写 一 个 宏 , 分 4 次 来 实现 4 个 校 验 和 程序 段 ， 


¡current checksum 

mmber of words left to sum 
;Word aligned input data pointer 
data word 


pint checksum 32 little(char * data, unsigned int N) 
Cchecksum 32 little 


BIC 


data, r0, #3 ;aligned data pointer 
w, rÜ, #3 byte alignment offset 
sum, #0 initial checksum 
pc. [рс, w, 12] ;switch on alignment 

; padding 
checksum 0 
checksum 1 


checksum 2 
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DCD checksum 3 


MACRO 
CHECKSUM Š alignment 
checksum $ aliqemment 
LDR w, [data], #4 :pre- load first value 
10 ; loop 
IF $ alignment« > 
ADD sum, sum, w, LERË 8 * $ alignment 
IDR x, [data], #4 
SUBS Н, N, #1 
ADD зил, sum, w, LSL1 32 - 8 « $ aligment 


ADD Sum, sum, w 
IDR w, [data], #4 
SERS N,N, #1 


BGT % BT10 
MOV po, lr 


epo Arqguaessy WYY Burziuuudo аму Oulu 9 


generate four checksum routines 
‚опе for each possible byte alignment 
CHECKSUM 0 

CHECKSUM 1 

CHRCKSUM 2 

CHECKESUM 3 


现在 可 以 像 6. 6. 2 小 节 那 样 展开 和 优化 程序 ,以 达到 最 高 的 执行 速度 。 由 于 增加 了 人民 
码 量 ,一 般 只 对 实时 性 要 求 高 的 程序 使 用 前 述 的 优化 技术 。 


A ES ZS TAFDNƏITSQSES ЛЫШ 
e 如 采 程 序 的 性 能 不 成 问题 ,那么 可 使 用 多 字 节 装载 和 存储 来 访问 边界 不 对 齐 的 数 
据 。 这 种 方法 可 以 访问 给 定 字 节 排 列 方式 的 数据 ,而 不 管 指针 对 齐 和 存储 器 系统 的 
字 节 排列 方式 ， 
€ 如 果 对 程序 的 性 能 要 求 比较 高 ,那么 可 以 使 用 几 段 程序 ,对 每 一 种 不 同 的 边界 情况 
使 用 不 同 的 程序 段 。 可 以 使 用 汇编 器 保留 字 MACRO 来 自动 生成 这 些 程序 段 ， 
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在 一 个 应 用 程序 中 ,要 实现 最 好 的 性 能 ,就 需要 编写 优化 的 汇编 程序 。 不 过 ,只 有 对 性 
能 影响 最 大 的 关键 程序 才 值 得 进行 优化 。 可 以 使 用 性 能 分 析 器 或 者 指令 周期 计数 工具 , 比 
如 ARM 的 ARMulator Simulatot ,来 找到 这 些 敏 感 的 关键 程序 段 。 

本 章 讨论 的 司 子 和 使 用 的 技术 都 是 针对 ARM 汇编 和 的。 下面 是 一 些 关 键 的 思想 ， 

e 对 代码 进行 合理 的 调整 ,这样 就 可 以 避免 处 理 器 流水 线 互 锁 或 中 止 。 附 录 了 介绍 子 

每 一 条 指令 产生 结果 所 占用 的 时 间 。 特 别 要 注意 load 和 乘法 指令 ,这 些 指令 产生 
结果 往往 需要 更 长 的 时 间 ， 
e 把 尽 可 能 多 的 数据 存放 在 14 个 通用 寄存 器 里 ,有 时 甚至 应 该 把 凡 个 数据 打包 放 人 和 
一 个 寄存 器 中 。 应 避免 把 内 层 循环 的 变量 放 到 堆栈 中 。 

e 对 于 较 小 的 这 语句 ,使 用 条 件数 据 处 理 操 作 比 条 件 分 支 更 好 。 

e 使 用 减 计数 到 零 (count ~ down - то ~ zero) 的 循环 结构 和 循环 展开 的 方法 ,以 获得 最 
高 的 循环 执行 效率 。 

e 对 于 打包 和 和解 包 位 流 数据 ,使 用 32 位 的 寄存 器 缓冲 器 可 以 提高 效率 ,并 可 减 小 存储 
器 数据 带宽 。 

e 使 用 分 支 表格 和 散 列 (hash) 函数 来 高 效 地 实现 switch 语句 。 

e 为 了 高 效 地 处 理 边界 不 对 齐 数据 ,可 以 使 用 多 个 程序 段 。 针 对 输入 和 输出 数组 的 特 
定 边界 情 闹 ,有 多 个 不 同 程序 段 ,并 分 别 进行 优化 。 运 行 时 在 其 中 选择 一 个 程序 段 
来 执行 。 
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除法 以 及 随机 数 发 生 等 等 都 是 基本 运算 。 一 些 基本 运算 是 ARM 指令 集 直 接 支 持 的 ,比如 
32 位 的 加 法 和 敌 法 。 但 是 ,许多 基本 运算 并 不 被 指令 集 直 接 支 持 ,必须 通过 编写 程序 来 实 
现 这 些 基本 运算 (例如 ,除法 和 随机 数 产生 ) 。 

本 章 给 出 了 一 些 常 用 基本 运算 葛优 化 参考 实现 。 前 3 节 是 关于 乘法 种 除法 运算 的 ;7.1 
节 分 析 了 扩展 精度 乘法 的 实现 方法 :7.2 节 讨论 了 规格 化 操作 ,这 对 于 7, 3 节 中 的 除法 运算 
是 非常 有 用 的 。 

接 下 来 的 2 节 介 绍 了 一 些 更 加 复杂 的 数学 运算 :7. 4 节 讨论 的 是 平方 根 的 问题 ;7, 5 节 
则 介绍 了 超越 函数 ,如 log, exp, sin 和 cos 的 实现 方法 ;?. 6 节 讨 论 的 是 位 运算 ;7.? 节 介 绍 
饱和 运算 与 例 人 (四 会 王八) 操作 ;最 后 ,7.8 节 描 述 了 随机 数 产 生 问 题 。 

可 以 用 两 种 方式 来 阅读 ,使 用 本 章 的 内 容 。 首 先 ,可 以 把 它 作为 一 种 直接 的 参考 。 如 巢 
需要 一 段 除法 程序 ,可 以 直接 通过 目录 找到 这 个 程序 ,或 者 找到 除法 这 一 小 节 。 读 者 可 以 从 
本 书 的 网 站 上 拷贝 到 汇编 源 代码 。 其 次 ,本章 提供 了 一 些 理论 知识 ,用 议和 解释 各 种 实现 方法 
的 原理 ,这 些 理论 对 于 修改 和 扩展 这 些 程序 是 必需 的 ， 例 如 ,对 于 一 种 运算 的 输入/ 输出 数 
据 的 精度 .格式 可 能 有 不 同 的 要 求 。 正 因为 如 此 ,在 一 些 文字 措 述 中 可 能 包含 许多 数学 公 
式 和 一 些 枯燥 的 证 明 过 程 。 如 果 对 这 些 不感 兴 趣 , 可 以 忽略 跳 过 。 

可 以 只 本 书 的 网 站 上 直接 下 载 到 完整 的 示例 代码 ,并 且 可 以 使 用 ARM 提供 的 工具 直 
接 进行 编译 或 汇编 。 为 了 保持 一 致 , 本章 中 的 所 有 合子 使 用 的 工具 是 ARM 工具 包 
ADS1.,1。 在 附录 A. 4 中 可 以 找到 关于 汇编 器 格式 的 帮助 信息 。 同 样 ,也 可 以 使 用 GUN 的 
汇编 器 gas, 在 附录 A.5 中 可 以 找到 关于 它 的 格式 的 帮助 信息 。 | 

本 章 使 用 了 C 语 青 的 关键 字 _value_in_regs。 在 ARM 的 编译 器 armc 中 , 它 表 示 函 数 
的 参数 或 返回 值 应 该 通过 寄存 器 而 不 是 引用 来 进行 传递 。 在 实际 应 用 中 ,这 将 不 是 一 个 问 
题 ,因为 操作 将 被 内 联 ,以 提高 运算 效率 。 

本 章 中 ,使 用 记号 Qk 表示 一 个 定点 数 , 其 二 进 制 小 数 点 位 于 一 1 位 和 k 位 之 间 。 例 
如 0.75 以 Q15 表示 ,就 是 整数 值 0x6000。 关 于 Qk 表示 形式 和 定点 算法 的 更 多 细节 ,请 参 
见 8.1 节 。 “ОБ 形式 表示 的 ad << 0,5*” 的 意思 是 ,a 表示 的 值 是 d2-5 ,这 个 值 小 于 1/2. 


7.1 双 精 度 整数 乘法 





使 用 UMULL 和 SMULL 指令 可 以 进行 最 多 32 位 宽度 的 整数 乘法 送 算 。 下 面 的 程序 
实现 了 64 位 有 /无 符号 整数 相 雪 , 得 到 一 个 64 位 或 者 128 位 的 结果 。 按 同样 的 方法 ,可 以 
进行 扩展 ,从 而 实现 任何 长 虚 的 整数 科 法 运算 。 有 许多 需要 长 整 型 乘法 运算 的 应 用 ,例如 ， 
ЖЕШ C h long long 类 型 数据 ,仿真 双 精 度 定点 或 浮 点 运算 以 及 公共 做 钥 计 算 需 要 的 长 束 
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型 算术 运算 等 。 
对 于 多 字数 据 , 这 里 使 用 小 端 字 节 排列 方式 表示 。 比 如 一 个 128 位 的 整数 存放 在 4 个 
寄存 器 аз заг ,al 和 ao, 相 应 的 存储 位 是 L[127:96],[95:64],[63:32],[31:0]( 见 图 7.1)。 


127 9695 6463 3231 0 


图 7.1 4 个 32 位 值 表示 的 一 个 128 位 数据 





7.1.1 长 整 型 乘法 


使 用 下 面 的 3 条 指令 序列 来 完成 2 个 64 位 数 ( 有 符号 或 无 符号 )b 和 < 的 乘法 ,并 得 到 
一 个 64 位 的 long long 类 型 的 结果 a。 不 包括 ARM Thumb 函数 调用 规则 (ATPCS) 的 封 
装 开销 和 最 坏 情 况 的 输入 值 , 这 个 运算 在 ARM7TDMI 上 会 占用 24 个 周期 ; 在 
ARM9IDMI 上 占用 25 个 周期 ;在 ARM9E 上 占用 8 个 周期 。 在 这 些 周 期 中 ,有 一 个 是 由 
于 第 一 条 UMULL 指令 和 MLA 指令 之 间 的 流水 线 互 锁 造成 的 ,这 可 以 通过 与 其 它 代码 的 
交错 使 用 来 避免 。 


b_0 RNO ;bbits [31,00] (blow) 

b_1 RN 1 ;b bits [63:32] (b high) 

c 0 RN 2 зс bits [31,00] (с low) 

c1 RN 3 ;c bits [63:32] (c high) 

a 0 RN 4 ;a bits [31:00] (а low- low) 
a1 RN 5 ia bits [63,32] (a low- high) 
a2 RN12  ;abits[95:64] (а high- low) 
a 3 RN lr — ;abits [127,96] (a high- high) 


;long long mul 64to64(long long b, long long c) 
mul 64to64 

STMFD  sp!, (r4,r5,lr) 

:64- bita-64- bit b x 64- bitc 


UMLL a0,al,b0,c0 ; low * low 
MLA &1,b0,cl,al ;low * high 
MLA a_1, b_1, c_0, a_1 ;high * low 


;return wrapper 
MOV г0, а 0 
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MOV гі, а 1 
LDMFD — sp!. ír4.r5, pci 


7.1.2 128 位 结果 的 无 符号 64 位 乘法 


对 于 2 个 无 符 苇 64 位 数 相 荚 得 到 128 位 结果 的 运算 ,有 2 种 略微 不 同 的 实现 方法 。 在 
ARM7M 版 本 上 ,第 一 种 方法 执行 比较 快 。 与 无 累加 的 版 本 相 比 ,这 里 的 飞 累 加 指令 占用 
了 一 个 额外 的 周期 。 在 ARM7M 版 本 上 ,需要 4 个 长 乘法 和 6 个 加 法 ,最 善人 情况 下 需要 30 
个 周期 。 


;_ value in regs struct | unsigned ай.а1,а2,а3;! 
umul 64to128, arw7m(unsigned long long b, 
; unsigned long long c) 
umul 6410128 агт? 
STMED — sp!, {14.15.11} 
,unsigned 128 - bit a= 64 - bit b * 64 - bit с 


UMLL a9,al.hü0,c9 :low x low 
WIL a2.a3.b0,c! ;low + high 
UMULL сі, b_0, b 1, < 1 :high ж high 


ADDS al,a 1, a 2 
ADCS а 2,а 3, c_1 
ADC a3,b 0, #0 
UHULL c O b O, b L, c Q ihighs* low 
ADDS а 1,а 1, c 0 
ADCS a 2, a_2, b ü 
ADC a 3,a 3, #0 
¡return wrapper 

MOV г0, а 0 

MOV rl, a 1 

MOV т2,а_2 

MOV r3 a 3 

LDMFD — sp!, {ї4,г5,рс)\ 


在 ARM9TDMI 和 ARMIE fA EF, ЕШ S8 УТКАН. ix EE UT 
的 技 行 速度 和 普通 乘法 一 样 快 。 在 ARME 版 本 上 ,调整 好 乘法 指令 u ЖЕ ЕКЕНЖ 
而 导致 的 流水 线 互 镇 现象 (有 关 流 水 线 和 互 锁 的 详细 介绍 见 6.2 节 )， 


i value in regs struct í unsigned а0,а1,а2,а3;} 





umul 6410128 araSe(unsigned long long b, 


umul 6110128 arm9e 


unsigned long long с) 


; low x low 


; low z high 


high ж low 


; high + high 


STMFD spl, ír4,r5,lr! 
;unsigned 128- bita - 64— bit b «+ 64- bitc 
UMULL аб,а1,ҺЬб,сС Д0 
MOV a 2, #0 

UMLAL a l, a_2, hb ñ. c_1 
MOV a 3, #0 

UMLAL а 1,а 3. b 1, c_0 
MOV b 0, #0 

ADDS a 2, a_2, a_3 

ADC a 3, b_0, #0 
UMLAL a_2, a 3, Бі, c 1 
return wrapper 

MOV rÜ, a 0 

MOV rl, a_l 

MOV r2,a 2 

MOV ri,a 3 

LUMED spl, (r4,.r5,pc] 
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不 包括 函数 调用 和 返回 的 封装 开销 ,这 个 实现 在 ARM9TDMI 上 需要 33 个 周期 ,在 
ARMIE 上 需要 17 个 周期 。 这 种 方法 的 思想 是 :如 果 ab Md 都 是 无 符号 32 位 整数 , 那 
么 操作 аста 不 会 超过 一 个 64 位 无 符号 整数 的 范围 。 因 此 可 以 使 用 通常 教科 书 上 操作 
中 十 c+d 的 方法 来 实现 长 整 型 乘法 ,这 里 cR d 是 横向 和 纵向 的 进位 ， 


7.1.3 128 位 结果 的 有 符号 64 位 整数 乘法 


一 个 有 符号 的 64 位 整数 可 以 分 解 为 一 个 有 符号 的 高 32 位 和 一 个 无 符号 的 低 32 位 ， 
为 了 实现 对 5 的 高 位 部 分 和 的 低位 部 分 相 乘 ,需要 一 一 条 有 符号 数 和 无 符号 数 相 乘 的 指令 。 


RAE ARM 没有 这 样 的 指令 ,但 可 以 用 宏 来 合成 一 条 这 样 的 指令 
PEWA USMLAL 提供 了 一 个 无 符号 数 和 有 符号 数 乘 累加 的 操作 。 去 实现 无 符号 数 
b 和 有 符号 数 c 相 汪 ,首先 需 把 2 个 数 都 当成 有 符号 数 相 乘 产生 的 结 果 К, ШӘ 的 最 高 位 


为 1 ,那么 这 个 有 符号 乘法 再 与 (一 22 ) 相 乘 。 在 这 种 情况 下 ,通过 对 结果 与 c2# 相 加 来 校 
ERRE. 类 似 地 ,SUMILAL 实现 了 一 个 有 符号 数 与 光 符 号 数 的 乘 票 如 运算 
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2 MACRO 

= USMLAL $al, $ah, $b, $c 

C» signed Sah. Sal + = unsigned $b « signed $c 

E SMLAL Sal, Sah, $b, $c ја = (signeDb + c; 

3 TST Sb, H1 << 31 ;if ((signed)b«0) 
ADDNE Sah, Sah, $c ja += (c << 32); 

ф иен 

Š 

8 MACRO 

Ф SUMLAL Sal, Sah, $, $c 

Us sied šah, Sal += signed $b * unsigned $c 

O SMLAL Sal, Sah, $b, 5c ‚а= рж (відпед)с: 

a TST $c, #1 << 31 ;if C(signed)e«0) 

Ф ADDNE аһ, Sah, $b ја += (b << 32) 
MEND 


使 用 这 些 宏 E 7.1. 2 小 节 的 64 位 先 法 转换 成 有 符号 的 乘法 要 相对 简单 一 些 。 在 相同 
应 用 环境 中 ,有 符号 的 乘法 要 比 其 相应 的 无 符号 乘法 多 4 个 周期 ,这 是 因为 有 符号 数 和 无 符 
号 数 相 薪 需 要 烙 外 的 用 于 符号 纠正 的 指令 。 


;. value in regs struct { unsigned a0,a1,a2;signed a3;) 
;  smul 64tol28(long long b, long long c) 
smul 6410128 
STMED sp!, (r4,r5,1r] 
Signed 128 - bit a=64- bit b # 64- bit c 
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THULL a0,al,h0,c0 lew w low 
MOV a 2, #0 
USMAL al l, a 2, b_D, c_1 plow * high 
MOV a 3, #0 
SUMA al.a3.bl,c ;high* low 


MOV b. 0, à, 2, ASR# 31 
ADDS a2,a2,a3 


ADC a_3, b 0,a 3, ASR# 31 

SNLAL а_2,а_3,Ь1,с_1 ;high * high 
return wrapper 

MOV rū, a Ü 

MOV rl, a 1 

MDV r2,a 2 

MOV rj,a 


LDMFD spl, {Е4,5,рс} 
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7.2 整数 规格 化 和 前 导 0 计数 








当 一 个 整数 的 前 导 1 或 最 高 有 效 位 所 在 的 位 置 为 规定 的 标准 值 时 ,这 个 整数 就 被 规格 
£T. XH Newton- Raphson 除法 ( 见 7.3.2 小 节 ) 或 把 数 转换 成 浮 点 格式 ,都 将 用 到 整数 
的 规格 化 。 规 格 化 对 于 对 数 运 算 ( 见 7.5. 1 小 节 ) 和 和 一些 调 度 (dispatch) 程 序 用 到 的 优先 解 
码 器 也 是 很 有 帮助 的 。 在 这 些 应 用 中 ,须知 道 规格 化 后 的 值 和 得 到 此 值 的 移 位 值 ， 

这 个 操作 是 如 此 重要 ,以 至 在 ARMVSE 以 上 的 体系 结构 中 ,特别 新 增 了 一 条 指令 来 加 
速 规格 化 操作 。CLZ 指令 用 来 计算 第 一 个 有 效 位 1 之 前 的 前 导 OCleading zero) 的 个 数 ,如 
果 一 个 1 都 没有 , 则 返回 32。CLZ 的 值 是 需要 规格 化 的 整数 将 要 左 移 的 值 ,这 样 规格 化 后 
的 前 导 1 就 在 位 31, 


7.2.1 ARMvS 及 以 上 体系 结构 的 整数 规格 化 


在 ARMv5 体系 结构 的 平台 上 ,下 面 的 代码 分 别 完成 了 元 符 导 和 有 符号 数 的 规格 化 。 
无 符号 数 规格 化 通过 左 移 使 得 最 高 有 效 位 (前 导 1) 处 于 第 31 位 :而 有 符号 数 则 通过 左 移 直 
到 符号 位 处 于 第 31 位 ,前 导数 据 位 (leading bit) 处 于 第 30 位 。 这 2 个 函数 都 返回 一 个 存放 
在 害 存 器 中 的 结构 体 , 结 构 体 中 的 2 个 值 分 别 为 规格 化 后 的 整数 和 规格 化 时 左 移 的 位 数 。 

x RH 0 ;input, output integer 


shift Rl ¿shift to normalize 


1_ value in regs struct ( onsigned x; int shift) 


; unem armPe(unsiqned x) 


оог arm3e 
CLZ shift, x ;left shift to normalize 
MOV X, x. LSL shift ;normalize 
MOV рс, lr 


i. value in regs struct | signed x; int shift;) 
;  unorm armSe(signed x) 
snorm агтде i[s5551-sxx-] 
EOR shift, x, x, LSLj 1 {001 x xx...] 
CLE shift, shift left shift to normalize 
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ARM BRA SR ZEIT A 
MOV x, X, LSL shift 
MOV pc, ir 


¡normalize 


注意 ; 上 面 的 程序 中 ,使 用 了 还 辑 " 异 或 "指令 ,把 对 有 符号 数 规 烙 化 的 规则 简化 为 无 符号 数 的 规 别 。 
AX rIGDAEGPEEQRAGIÉRE (z a 1}, 就 把 前 导 1 鹤 在 了 x 的 第 一 个 特 呈 性 置 上 。 


7.2.2 在 ARMYv4 体系 结构 上 的 规格 化 


ARMv4 体系 结构 的 处 理 器 ,比如 ARM7TDMI 或 ARM9TDMI ,不 支持 CLZ 62, 38 
要 使 用 其 它 的 方法 来 实现 这 个 功能 。 在 函数 unorm_arm7m 中 使 用 的 二 分 法 (divide - and - 
conquer) 较 好 地 平衡 了 性 能 和 代码 量 之 间 的 关系 ,通过 依次 检查 对 了 的 16,8,4,2,1 位 左 移 
是 否 可 以 进行 ,来 完成 规格 化 。 


;,value in regs struct | unsigned x;int shift;] 


yj umom arm/m(unsigned x) 


unorm arm7n 


NOV 


shift, #0 

x, 1 << 16 

X, x, LSL 16 
shift, shift, 16 
x, # OxFFOD0000 
x, x, LSLH 8 
shift, shift, #8 
x, #0х®Е0000000 
x, x, LSLj 4 
shift, shift, #4 
x, ft 0х60000000 
x, x, 512 
shift, shift, #2 
x, # 0x80000000 
shift, shift, H i 
x, x, І51#1 
shift, #32 

рс, lr 


ishift-0, 

pif (x < (1 << 16)) 
{{ xXx << 16; 

1 shift+= 16;} 
pif tx <<] (1 << 24)) 
i x=x << 8; 

1 shift+=8,) 

sif (x < {1 << 28)) 
I x=x << d, 

po shift+=4;) 

1if (z < (1 << 30)) 
jo xx << 2 

| Shift +5 2,] 

pif (x < (3 << 31) 
;| shift += 1; 

I x << Fl; 

pif (х == 0) shift = 324) 


上 商 的 程序 中 , 当 ОВ, MOVEQ 指令 设置 shift 为 和 2, 这 一 步 经 常 可 以 省 
M. Œ ARM7TDMI 或 ARM9TDMI 上 ,整个 实现 需要 17 个 周期 ,足以 满足 大 部 分 的 应 用 
需求 。 但 是 ,对 这 些 处 理 只 而 言 ,这 还 不 是 最 快速 的 规格 化 方法 ， 想 要 获得 最 快 的 执行 速 





т 基本 运算 优化 





度 , 可 以 采用 基于 散 列 算法 (hash - based) 的 方法 。 

基于 散 列 算法 的 方法 ,首先 是 在 不 改变 CELZ fb OR] Se 0 个 数 ) 的 情况 下 ,把 输入 操作 数 
缩小 到 33 种 不 同 的 可 能 之 一 。 实 现 方 式 为 :首先 需要 重复 x 二 + ! (т >> s) 操 作 ,s = 1,2. 
4,8, 当 前 导 1 的 初始 位 置 在 位 31 一 15 之 间 时 ,这 样 就 把 前 导 1 向 右 复制 了 16 位 。 当 前 导 1 
的 初始 位 图 在 位 0-14 之 间 时 ,前 导 1 就 从 初始 位 置 复制 到 位 0。 移 位 操作 结束 之 后 , 须 计 
Ё х=х &— (z >> 16), 这 是 为 了 清除 最 后 一 个 复制 ] 到 位 0 之 间 的 位 。 表 7.1 显 永 了 这 
2 步 操作 的 效果 ,对 每 一 种 可 能 的 二 进 制 输 人 形式 ,显示 了 这 些 操 作 产生 的 对 应 32 位 编码 。 


ЖЖ. ШЛ CLZ Jie 32 Pt than a CLZ dE Ede S, 


87.1 不 同 输入 值 的 编码 和 CLZ f 





Input(in binary, x is а wildcard bit} 38-bit code CLZ value 
1ххххххх XXXXXXXX XXXXXXXx XXXXXXXX 0xFFFF0000 0. 
Ülxxxxxx AXXXXXXX XXXKXXXX XXXXXXXX 0x7FFF8000 1 
001ххххх XXXXXXXX XXXXXXXX XXXXXXXX Ox3FFFC000 z 
00000000 980000000 00000000 000001хх 0х00000007 29 
00000000 00000000 00000000 0000001x 0х00000003 . 80 
00000000 00000500 00900000 . 00000001 0х00000001 31 
00000000 00000000 00000000 00000000 0х00000000 32 





道 过 使 用 散 列 函数 和 查 表 相 结 合 的 方法 ,可 以 得 到 每 个 编码 CLZ 值 。 关 于 散 列 函数 的 
细节 癌 参 见 6,8,2 小节。 

对 于 散 列 函数 ,可 通过 与 一 个 很 大 的 值 相 滋 ,截取 结果 的 最 前 面 6 位 。 Æ ARM 上 ,使 
用 桶 形 移 位 器 可 以 很 容易 地 进行 十 1 和 2 一 1 ERARE., ELL ,对 每 个 不 同 的 
CLZ 值 , 乘 以 (2' 一 1)(21 一 1)(2* 一 1) 会 得 到 不 同 的 散 列 值 。 作 者 通过 计算 机 计算 搜索 , 找 
STAT. 

在 ARMv4 处 理 器 土 , 下 面 的 代码 实现 了 一 个 快速 的 基于 散 列 算法 的 规格 化 。 在 
ARM7TDMI 上 ,整个 执行 过 程 除了 建立 表 指 针 外 ,需要 13 个 周期 。 


table  RN2 address of hash lookup table 


з value in regs struct { unsigned x, int shift;! 
р unorm arm7m hash(unsigned x) 

unorm arm7m hash 
ORR shift, x, x, LSR# 1 
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shift, shift, shift, LSRH 2 

shift, shift, shift, LSR# 4 

shift, shift, shift, LSRJ 8 

shift, shift, shift, LSR# 16 

shift, shift, shift, LSLE 9 — ; * (278 - 1) 
shift, shift, shift, LSLHE 11 рж (211-1) 
shift, shift, shift, LSL 14 ж (214-1) 
table, unorm arm7m hash table 

shift, [table, shift, 1589 26] 

x, x, LSL shift 

pe, ir 


unorm агита hash, table 


DICE 
DCE 
DCB 


DCH 


0x20, 0x14, 0x13, Oxff, Oxff, Ox12, Uxff, 0х07 
OxQa, 0х11, Üxff, Oxff, OxOe, Dxff, OxO5, Oxff 
Oxff, 0x09, Oxff, 0х10, Oxff, Oxff, OxOl, Oxla 
Oxff, 0х09, Ox££, Oxff, 0x18, 0x05, Oxff, Oxff 
Oxff, 0x15, Oxff, 0х08, OxOb, Oxff, OxOf, Oxff 
Üxff, Üxff, OxFf, 0x02, Oxlb, 0х00, Oxl9, 0хЁЁ 
0x16, Oxff, 0х0с, Oxff, Üxff, 0503, Oxlc, Oxff 
0х17, Охе, 0х04, Oxld, Oxff, Oxff, 0хіе, Oz1f 


7.2.3 fa 0 计数 


后 级 0 计数 与 前 导 0 计数 紧密 相关 。 后 级 0 计数 表示 了 一 个 整数 中 最 低 有 效 位 后 的 0 
的 个 数 , 它 也 是 可 以 被 该 整数 除 的 最 大 的 2 的 胰 宕 。 因 此 可 以 通过 计算 后 名 0 的 个 数 , 把 一 
个 整数 表示 成 2 的 筑 埋 与 一 个 奇 整数 的 积 。 如 果 一 个 整数 为 0, 那么 它 没有 最 低 有 效 位 ,这 


4 EO 的 个 数 就 是 32。 


Hj T 158] В n TRORA? 的 乘 禾 ,有 一 个 巧妙 的 方法 , 即 表 达 式 (n&( 一 n)) 什 
中 惟一 的 一 个 1 的 位 置 , 就 是 中 最 低 有 效 位 1 的 位 置 。 图 7. 2 显示 了 这 个 过 程 。x 表示 


通配符 位 。 


用 这 种 方法 ,可 以 把 后 强 0 计数 转换 成 前 导 0 计数 。 下 面 的 代码 实现 了 在 ARMSE 上 
计算 后 名 0 个 数 的 功能 。 这 里 使 用 了 条 件 指令 ,在 不 增加 其 它 额外 开销 的 情况 下 ,解决 了 输 


入 操作 数 是 0 的 问题 ， 
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п —Trrxrrrrrrrrrrrxzxlo0000000000000 
=n =yyyyyyyyyyyyyyyyyyy10000000000000 其 中 ?一 1 一 
n(n) = 0000000000000000010000000000000 


— ŘŮŘŮ—— ‘i o y 


E72 iRAUEBE A 


SƏAHILLIId DƏZILLIIICIO / 


iunsigned сіх arm9e(unsiqned x) 

ctz arm9e | | 
RSBS shift, x, #0 jshift- -x , — 
AND Shift, shift, x isolate trailing 1 of x 
CLZCC shift, shift ;nunber of zeros above last 1 
RSC r0, shift, #32 number of zeros below last 1 
MOV рс, lr 


对 于 不 支持 CLZ 指令 的 处 理 器 来 说 ,类 似 于 7.2. 2 小 节 的 基于 散 列 算法 的 方法 可 以 得 
到 较 好 的 性 能 ; 


yunsigned ctz aru7m(unsigned x) 


ctz arm7m 
RSB shift, x, #0 
AND shift, shift, x . ;isolate lowest bit 


ADD —— shift, shift, shift, LSLE 4 , « (2441) 207 
ADD shift, shift, shift, LSLE ; 9 (2-6 +1) 
RSB Shift, shift, shift, LSL#16 ,» (2716-1) 
ADR table, ctz arm7m hash table 
IDRB r0, [table, shift, LSR# 26] 
MOV рс, lr 

Ctz arm7m hash table 
DCB 0x20, 0х00, 0х01, Ох0с, 0x02, 0х06, Oxff, Ox0d 
DCR 0x03, Oxff, 0x07, Ox£f, Oxff, Üxff, Oxff, Oxüe 
DCB Оха, 0х04, Oxff, Oxff, 0x08, Oxff, Oxff, 0х19 
DCH Üxff, Oxff, ОхЁЕ, OxFf, Üxff, 0х15, Oxlb, OxOf 
DCB Üxif, OxÜb, 0x05, Oxff, Oxff, OxFf, Üxff, Oxff 
DCB 0209, Üxff, Oxff, Ox18, OxfF, Oxff, Ox14, Oxla 
DCB Охе, Oxff, Oxff, Oxff, Oxff, 0х17, Oxff, 0x13 
DCB Ох1а, Oxff, ӧк16, 0x12, 0х1с, 0x11, 0x10 
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7.3 除 法 





ARM 核对 除法 运算 不 提供 硬件 支持 ， 除 法 运算 必须 通过 调用 基于 标准 算术 操作 的 软 
件 程序 来 完成 。 即 使 在 程序 中 不 能 避免 除法 (如 何如 免除 法 运算 以 及 相同 除数 的 快速 除法 
运算 见 5. 10 节 ), 也 应 该 使 用 经 过 高 度 优 化 的 除法 程序 。 本 节 将 提供 儿 个 有 用 的 经 过 优化 
的 除法 程序 。 . 

对 于 最 大 限度 优化 的 newton- raphson 除法 程序 来 说 ,在 ARMIE 上 的 运行 速度 ,可 以 
和 每 周期 1 位 的 硬件 除法 的 执行 速度 一 样 快 。 所 以 ,ARM 并 不 需要 复杂 的 醒 件 除法 实现 。 

本 节 描 述 了 一 些 目 前 最 快速 的 除法 实现 。 其 篇 辐 不 可 避免 地 有 点 长 ,因为 有 许多 不 同 
的 除法 技术 和 精度 带 要 考虑 。 另 外 ,需要 证 明 程序 对 所 有 可 能 的 输入 值 都 能 正确 执行 。 考 
虑 到 不 可 能 一 一 尝试 所 有 可 能 的 32 位 数 除法 的 输入 参数 ,所 以 这 些 证 明 是 必要 的 。 如 果 对 
理论 细节 不 感 兴趣 ,可 以 跳 过 有 关 证 明 部 分 ,直接 从 书 中 获取 代码 。 

7, 3, 1 小节 介绍 了 使 用 试探 减法 (trial subtraction) 或 二 分 搜索 (binary search} 的 除法 
TA. TWERDA ERRESA (early termination) 的 除法 ,或 者 是 处 理 器 不 支持 
快速 乘法 指令 ,试探 减法 是 很 有 用 的 。7. 3. 2 小 节 和 7.3.3 小 节 给 出 了 使 用 Newton - 
Raphson 迁居 方法 实现 的 除法 程序 。 当 最 坏 情 况 下 的 性 能 是 重要 的 ,或 者 有 快速 的 乘法 指 
令 支持 时 ,可 以 使 用 Newton - Raphson $f}, Newton ~ Raphson 实现 使 用 了 ARMV5TE 
扩展 。7. 3.4 小 节 着 重 于 分 析 有 符号 数 的 除法 。 

本 章 使 用 下 面 的 符号 ,以 区 分 精确 的 数学 意义 上 的 除法 和 整 型 除法 运算 ， 

ө n/d 表示 除 以 d 的 整数 商 ,结果 趋向 于 ОУС НН); 

@ па POR n 除 以 d 的 整数 余数 ,就 是 x 一 d ( n/d ) (SH C rh lal; 


ө n//d— па 表示 真正 数学 意义 上 的 ”被 4 Ж. 


7.3.1 通过 试探 减法 实现 无 符号 数 除法 


计算 无 符号 整数 和 a liam n/d MAr =n d, MECHAN q 不 超过 NN 位 ,md 
<2" ,或 者 说 nm<(d < N)。 试 探 减 法 算法 以 最 高 有 效 位 -一 -位 N 一 1 开始 ,通过 依次 试图 
设置 各 个 位 来 确定 4 N 位 值 ， 这 种 向 法 和 对 结果 的 二 分 搜索 (binary search) 是 等 价 的 。 
如 果 可 以 从 当前 的 余数 减 去 (d << &), 且 减法 结果 不 是 负数 ,那么 就 可 以 设置 位 上。 例子 
udiv_simple 给 出 了 这 个 算法 的 C 实现 代码 ， | 
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unsigned udiv_simple(unsigned d, unsigned n, unsigned N) 
{ 


unsigned q= 0, г= п; 


{ / * calculate next quotient bit x / 
N-- ; , / ж move to next bit * / 


if ( (r >> № >= d)/*if r> = аж (1 << N) */ 


r -= (d << N); / * update remainder * / 
q += (1 << N); / * update quotient x / 


) while (N); 


return q; 


) 

【证 明 7.1] 对 上 面 结果 的 正确 性 做 出 证 明 。 

注意 : 在 减 六 之 前 ,等 式 (7. 1) 的 不 变 式 成 立 。 

n=qd+r Ң0<г<42*“ (7.1) 

开始 时 ,gq=0,r=n, 由 于 假设 商 的 范围 在 N 位 内 ,因而 不 变 式 成 立 。 假 定 现在 对 某 个 
NN ,不 变 式 成 立 。 如 果 r2" ,那么 对 于 N 一 1, 不 需要 做 任何 事情 ,不 变 式 成 立 。 如 果 r 
之 d2” ,那么 通过 对 rs 427 ,并 加 27 S| g, 可 保持 不 变 式 成 立 。 

前 面 的 实现 被 称 为 恢复 (restoring) 试 探 碱 法 实现 。 在 非 恢 复 实现 中 ,减法 总 会 发 生 。 


”但 是 ,如 果 变 成 了 负数 , 则 要 在 下 一 次 进行 (d << NN) 的 加 法 ,而 不 是 减法 ,这 样 能 得 到 相 


同 的 结果 。 非 恢复 除法 在 ARM 上 执行 速度 比较 慢 ,因此 就 不 再 详细 讨论 了 。 下 面 将 给 出 
使 用 试探 减法 的 除法 汇编 实现 , 它 可 以 针对 不 同 大 小 的 除数 和 被 除数 。 这 些 程序 可 以 在 所 
有 的 ARM 处 理 器 上 运行 。 


这 是 一 个 C 编译 器 所 需要 的 操作 。 当 在 C 中 出 现 表达 式 n/d 或 n%d, 而 且 d 又 不 是 2 
HREN C 编译 器 就 需要 调用 它 。 程 序 返回 一 个 带 有 商 和 余数 2 个 元 素 的 结构 体 。 


d RN 0 ;input denominator d, output quotient 
r RN 1 input numerator n, output remainder 
t RN 2 ¿scratch register 

q RN 3 ;current quotient 
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; value in regs struct ( unsigned q, ri: 


;  udiv 32by32 arm7m(unsigned d, unsigned n) 


udiv 32by32 arm7m 


MOV 
RSBS 
ВСС 


q. #0 

t. d, r, LSRH 3 
div 3hits 

t. d, r, І58#8 
div 8bits 

d, d, LSL В 

а, q, H 0хЕЕОООООО 
t, d, r, LRH 4 
div dbits 

t, d, г, 58+ 8 
div Bhits 

d, d, LSLit e 

а, q, # 0х00ЕЕ0000 
t, d, г, LSR# 8 

d, d, ISLS 

q, q, #0х0000ЕЕ00 
t, d, r, LSRI 4 
div_dbits 

t, d, #0 

div by 0 


;zero quotient 

iË ((r >> D> =d) Cs51li;elseC-0, 
iquotient fits in 3 bits 

jf» E) d С= l1;else C= 0; 
iquotient fits in 8 bits 

;d-dx256 

‚шаке div loop iterate twice 

Fr >> 4)> = dy C= l;else C- 0; 
;quotient fits in 12 bits 

sif (Cr >> B)2>= d) С= l;velse C70; 
quotient fits in 16 bits 

;d = d * 256 

:make div loop iterate 3 times 

sif ((r >> 8B)2>> = d) 

; Í d= d = 256; 

‚паке div loop iterate 4 times} 

pif (Сг >> 4)<0) 

;r/d quotient fits in 4 bits 

j;if (0 > = d) 

goto divide by zero trap 


;fall through to the loop with C = 0 


div loop 
MOVCS 

div übits 
RSBS 


RSBS 


d, d, ISR# B 


t, d, r, LSR# 7 
r, r, d, LSL 7 
9, q q 

t. d, r, LSRJE6 
r, r, d, LSE#E 6 
4, 9.9 

t, d, r, LSRÍ 5 
r, r, d, І5Ы# 5 
а. qq 

t, d, r, LSRH 4 


iif (next loop) d = d/256 

calculate B quotient bits 

pif ((r >> 7)> = d) C7 1;else C70, 
if (C) r -= d << 7; 

iq = (9 << 1) + G; 

jf (Cr >> §)> = d) C7 1,else C= 0; 
1if (C) r -= d << 6; 

iq = (q << 1) + G; 

sif {ir >> 5)> = а) C=1l;else C= 0; 
pif (C) r -= d << 5; 

sq=(q << D 4C, 

iÉ ((r >> 4)2> = d) C- 1,else C2 0; 
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SUBCS к,г, d, 1SL#4 sif (C) r -= ded 

ADC qs q q jg = (g << 1) + Cz 
div 4bits calculate 4 quotient bits 

RSBS t, d, r, LSR 3 fro» 3)22= d) C=1;else C= 0; 

SUBCS r, г, d, LSL#3 uf) r -= d << 3; 

АС 9, q 9 ;g= (g << 1) EC; 
div 3bits calculate 3 quotient bits 

RSBS t, d, r, LSR#2 pif (fr >» 2)22 = d) Cz 1;else C- 0; 

SUBCS r, r, d, LSL#2 ;1F (С) r -= d << 2, 

‚ HX 9.9 9 19= (q << D tC, 

RSBS t, d, r, LIRË 1 if {ir >> 1)2> = dy C=1;else C=0; 

SURS r,r,d,ISLEÉ1 pif (C) r — d << 1; 

АС 9, 4 q iq = (q << 1) +С; 

RSBS t, d, r jf ¿r> = d) C= l;íelse C= 0; 

SUBCS т, ү, 1if (C) r == d; 

МСБ 9,9,9 з4= (q << 1) +CC= old a bit 31; 
div next 

BCS div loop ;loop if more quotient bits 

HOV го, q rO = quotient;ri = remainder; 

MOV рс, Іг jreturn í r0, гі ) structure; 
div, by б 


MOV rÜ, #-1 
MOV rl, #-1 
MOV рс, lr ;return | — 1, = 1) structure; 


为 了 弄 清 楚 这 个 程序 段 是 如 行 工作 的 ,首先 观察 标号 div Shits 和 div next Z [a e fÉ 
码 。 其 计算 了 8 位 的 商 nid, 把 余数 放 在 r, 并 把 8 位 的 商 播 人 到 9 的 低位 上 。 这 和 让 代码 全 
用 了 试探 减法 来 完 戌 ,依次 试图 对 > 减 去 128d ,64d,324,16d,8d ,4d,2d 和 4d。 对 每 一 次 减 
法 ,如果 减 法 的 结果 不 小 于 零 , 则 设 进位 为 1; 否 则 设 为 0。 这 个 进位 构成 了 要 插入 ç 的 结果 
的 下 一 位 。 . 

接 下 来 ,如 果 只 要 执行 4 位 或 者 3 位 的 除法 运算 , 则 可 以 分 别 跳 到 div_4bits 或 div_ 
3bits 的 代码 段 ， 

现在 来 看 一 下 程序 的 开始 。 计 算 +/d, 把 余数 放 在 7, 并 把 商 写 到 gq。 首先 检查 商 g 是 否 
在 3 或 8 位 之 内 。 如 果 是 ,就 可 以 直接 跳 转 到 div_3bits 或 出 v_8bits 程序 段 , 分 别 来 计算 相 
应 的 结果 。 当 商 是 比较 小 的 值 时 ,这 种 撮 钞 纤 黄 (early termination) RRA RA., WRH 
18 {#,Ж АЖА d ЖД 256,89] r/d 的 结果 在 8 zm A MEI d R 256 的 次 数 
记录 下 来 , 放 在 4 的 高 位 ,对 每 一 次 乘法 设置 8 位 。 这 就 意味 着 在 计算 8 位 r/d 之 后 ,又 回 
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到 了 div_loop, 并 为 前 面 执行 的 每 一 个 乘法 ,对 d 除 以 256。 用 这 种 方法 就 把 除法 运算 简化 
成 了 一 系列 的 快速 8 位 除法 。 





在 7.3.1.1 小 节 的 32 位 /32 位 除法 中 ,对 于 商 的 每 一 位 运算 ,一 次 试探 减法 都 要 占用 
3 个 周期 。 但 是 ,如 果 除 数 和 商 能 限定 在 15 位 之 内 , 则 对 商 的 每 一 位 试探 减法 就 可 以 只 花 
费 2 个 周期 。 对 于 16 位 的 DSP, 这 个 操作 是 很 有 用 的 ,因为 2 个 Q15 形式 正 数 的 除法 运 
算 , 需 要 一 个 30 位 /15 位 的 整数 除法 操作 ( 见 8. 1.5 小 节 ) 。 

下 面 的 代码 ,被 除数 N 是 一 个 32 位 的 无 符号 整数 ,除数 d 是 一 个 15 位 的 无 符号 整数 。 
程序 返回 一 个 包含 15 位 商 gq 和 余数 ~ 的 结构 体 。 如 果 nz << 15 ,那么 结果 就 会 溢出 ， 
这 时 将 返回 可 允许 的 最 大 商 值 0x7fff。 


m RN 0 ;input denominator d then ( -d << 14) 


әрле sjedoleAed шәѕ/$ Welv 


r RN 1 ;input numerator n then remainder 


; value in regs struct ( unsigned q, r;) 
;udiv 32byl6 arm7m(unsigned d, unsigned n) 
udiv 32byl6 arm7m 
RSBS п, m, г, LSR#15 ‚а= (п >> 15) - а 


BCS overflow 15 ;overflow if (n >> 15)» = а 
SUB m, n, r, 5815 ;m= —d 
212 MOV в, m, ISLË14 im= -d << 14 


;15 trial division steps follow 


ADDS r, m, r ;r*r-(d << 14);C= (r> =0); 
SUBCC г, г, т iif (С== 0) г+= (а << 14) 

ADCS г, а, г, LSL #1 зг= (2жг+С) – (а << 14);С= (г> = 0); 
SUBCC г, г, в pif (C220) г+= (d << 14) 

ADCS г, п, г, LSL #1 ‘and repeat 

SUBCC . r,.r, а 

ADCS r, m, r, LSL #1 

SUBCC r,r,m 

ADS г, п, г, LSL #1 

SUBCC г, г, в 

ADCS r, а, r, LSL #1 

SUBCC r,r,m 


ADCS г, m, r, LSL #1 
SUBCC г, г, в 
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ADCS г, в. г, 161 #1 ~ 
SUBCC г, г.п 9 
ADCS  r.mr.LSL di = 
SURCC т,т,т J 
ADCS r, m, r, LSL #1 @ 
SUBCC  r,r,m 0 
ADCS r, m, r, LSL #1 3 
SUBOCC г, г, п z 
ADS г, m,r, LSL #1 Ф 
SUBCC г, г, л 
ADS r, а, г, LSL #1 
SURE г, г, n 
А05 г, в, г, LSL #1 
SUBCC ү, їг, а 
ADCS F, m, r, LSL #1 
SUBCC г, г, в 
¡extract answer and remainder (if required) 
АРС rü, r, r insert final answer bit 
MOV r,r0, LSR #15 extract remainder 
BIC rü, r), r, LSL #15 extract quotient 
MOV pe, ir ¿return { г), r} 

Overflow 15 quotient oveflows 15 bits 213 
LDR rÜ, = Üx7FFF гмах ів quotient 
MOV rl, rÜ ушах шип remainder 
ноу рс, 1= ,return { 0x7£f£, Ox?7F£E } 


首先 设置 m= 一 d2*。 用 移 位 后 的 余数 加 上 负 的 除数 来 代替 从 余数 三 去 一 个 移 位 后 的 
除数 。 在 经 过 第 次 的 试探 减法 后 ,x 低 端的 上 位 就 存放 了 商 的 最 高 二 位 fr 高 端的 
032 一刀 位 存放 了 余数 值 。 每 一 条 ADC 指令 实现 3 个 功能 : 

e 对 余数 左 移 一 位 ; 

e 从 上 一 次 的 试探 碱 法 来 增加 一 位 商 值 ; 

e 从 余数 减 去 (d << 14), 


经 过 15 次 后 ,r 的 低 端 15 位 就 包含 了 商 的 值 ,高 端 17 位 包含 了 余数 值 ， 把 这 2 个 值 分 
BARERA r0 和 rl。 除了 返回 之 外 ,这 个 除法 在 ARMTTDMI 上 共 占 用 了 35 个 周期 。 
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这 种 操作 适合 于 Q31 形式 的 定点 整数 除法 运算 ( 见 8. 1.5 小 节 )。 这 比 7.3.1.2 小节 
中 的 除法 运算 精度 提高 了 1 倍 。 被 除数 n 是 一 个 64 位 的 无 符号 整数 ,除数 d 是 一 个 31 位 
的 无 符号 整数 。 下 面 的 程序 返回 一 个 包含 32 位 商 g 和 余数 + 的 结构 体 。 如 果 nd, 
么 结果 会 溢出 。 此 时 程序 将 返回 可 允许 的 最 大 商 值 0xffffffff。 这 个 使 用 每 周期 3 位 (three- 
bit-per-cycle) 的 试探 减法 的 除法 程序 ,在 ARM7TDMI 上 共 占 用 99 个 周期 。 在 代码 的 注释 
中 ,使 用 符号 Lr,g] 表 示 一 个 高 32 位 > 和 低 32 位 g 的 64 位 值 。 
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m RN 0 ;input denominator d, - d 

r RN 1 ;input numerator (low), remainder (high) 
t RN 2 ;input numerator (high) 

q RN 3 ¿result quotient and remainder (low) 


; value in regs struct ( unsigned q, r;) 


; udiv 64by32 arm7nm(unsigned d, unsigned long long n) 


udiv 64by32 arm7m 
CMP t,m 
BCS overflow 32 


;if (п >= (d << 32)) 


; goto overflow 32; 


RSB n, n, #0 }п=-@ 
ADS Q rr ;{ [r.a] 22*[r.a]- [9,0]; 
214 ADS г, п, +, LSL#1 ‚ C*([r,q]5 =0);) 
SUBCC г, г, в ;if (С== 0) [r,q] += [4,0] 
GBLA k ;the next 32 steps are the same 
k SETA 1 ;SO we generate them using an 
WHILE k<32 ;assembler while loop 
ADCS q,q,q i([r,qJ=2*[r,q]+C - [d,0]; 
ADCS г, в, г, LSL 1 ;C= ([r,q]> =0);) 
SUBCC r, r, m iif (C==0) [r,q] += [d,0] 
k ЅЕТА k*1 
WEND 
ADCS г0, 94,9 ;insert final answer bit 
MOV рс, lr ;return ( r0, r1) 
overflow 32 


MOV r0, # -1 
MOV ri; # -1 
MOV рс, lr 


¿return { - 1, -1) 
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这 个 程序 的 思想 与 32 位 /15 位 除法 类 似 。 在 第 次 的 试探 碱 法 后 ,64 位 值 [r,9j 的 高 
问 (64 一 此) 位 包含 了 余数 , 低 端 庆 位 包含 了 商 的 高 上 位 。 经 过 32 EUER r 中 存放 了 
余数 的 值 ,gq 中 就 保存 了 商 的 值 。2 条 ADC 指令 对 [Lr,gj 左 移 一 位 ,把 最 后 结果 位 插 和 到底 
部 ,并 从 高 32 位 减 去 除数 。 如 果 减 法 溢出 , 则 通过 回 加 除数 来 纠正 > 的 值 。 





7.3.2 无 符号 整数 的 Newton-Raphson 除法 


Newton-Raphson 选民 是 一 种 求解 数值 方程 的 强 有 力 技 术 。 只 要 知道 一 个 方程 解 的 近 
似 值 ,通过 兴 代 就 可 议 快 速 通 近 结 果 值 。 实 际 上 ,这 种 通 近 速度 和 运算 结果 的 有 效 位 数 之 间 
满足 2 次 关系 ,每 次 选 代 运 算 可 以 使 运算 结果 的 有 效 位 数 增加 大 约 1 f, Newton-Raphson 
被 广泛 应 用 于 计算 高 精度 的 倒数 和 平方 根 。 这 里 将 使 用 Newton-Raphson 方法 处 理 16 位 
和 32 位 整数 和 小 数 除法 ,而 且 这 种 方法 可 以 被 运用 到 对 任何 位 数 的 数值 的 除法 运算 中 ， 
Newton-Raphson 技术 适用 于 任何 形式 如 f(x) —0 的 方程 式 ,其 中 fO) И 9E AE B0 PR 
数 ,其 导数 是 f(x)。 首 先 候 定 方程 式 解 x 的 一 个 近似 值 zx,, 然 后 使 用 下 面 的 选 代 , 得 到 一 
个 更 精确 的 近似 值 z+ 。 
Fern) (7,2) 


Жы = Z, 一 PG 


图 7.3 证 明了 Newton-Raphson EARI /(0 —0.8— x7 — 0 BB BE z, 1 dE 
为 初始 近似 值 。 经 过 2 次 选 代 ,得 到 z —1.2 和 zx, 二 1.248, 此 时 已 经 非常 通 近 结果 1.25. 





图 7.3 Л f(x) 20. 8— 1/x 的 Newton-Raphson š 4t 
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可 以 看 到 ,这 个 迭代 已 经 把 上 面 的 除法 颠倒 过 来 了 ,原来 的 乘 以 2 RA d, 变 成 了 除 
以 2*, 乘 以 d。 下 面 2 种 情况 特别 有 用 ， 


@ 当 N=32 且 d 是 整数 时 。 在 这 种 情况 下 ,可 以 快速 估算 出 值 2” d ,然后 用 这 个 近 
似 值 来 计算 n/d, 即 两 个 无 符号 32 位 数 的 比 。N=32 时 的 迭代 见 7. 3. 2. 1 小 节 。 

e 4 N=0 H d 是 用 定点 的 形式 表示 的 小 数 , 且 满 足 0.5 d <1 时 。 在 这 种 情况 下 ， 
使 用 迭代 来 计算 d ,这 对 于 计算 一 定 范围 内 的 定点 形式 的 值 的 wd 是 很 有 帮助 
的 。N=0 时 的 迭代 见 7.3. 3 小 节 。 


本 小 节 给 出 了 一 个 与 7. 3, 1. 1 小 节 的 程序 不 同 的 实现 方法 。 下 面 的 程序 在 ARM9E 上 
充分 利用 了 快速 乘法 器 ,呈现 出 在 最 坏 情况 下 的 良好 性 能 。 使 用 整数 4d 的 N=32 时 的 
Newton-Raphson 迭代 来 估算 整数 2”/d; 然 后 把 这 个 近似 值 与 n 相 乘 ,并 除 以 22 ,得 到 一 个 商 
q—n/d 的 近似 值 ; 最 后 ,计算 余数 r=n 一 gd, 并 校正 商 和 余数 的 舍 人 误差 (rounding error), 


RN 0 ¿input denominator d, output quotient q 


> 对 于 许多 函数 /这 种 迭代 可 以 快速 逼近 解 z 的 值 。 从 图 形 上 看 ,z,-; 的 位 置 就 是 曲线 

<| 在 xz, 的 正切 与 x 轴 的 相交 点 。 

$ 使 用 Newton-Raphson 迭代 方法 ,可 以 仅 使 用 整数 乘法 操作 来 计算 2477. 6 2 作为 

| ”因子 ,这 样 做 对 于 估算 7. 3. 2. 1 小 节 和 5. 10. 2 小 节 中 用 到 的 27/4 是 很 有 好 处 的 。 考 虑 下 

J| 面 的 函数 ， 

š fe) = a— 2 (7.3) 

9 方程 f(z)=0 HR ==2*d-! 和 导数 GO 二 2*z-*。 通 过 置换 ,Newton-Raphson 和 迭代 为 
d —2"z;! ах? 

P хы = z, — P = 01, 一 ri (7.4) 

0 

= 

о 

Ф 
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RN 1 ¿input numerator n, output remainder г 
RN 2 ¿scratch register 
RN 3 ¿scratch register 


m B m чн д 


RN 12 ;scratch register . 


; value in regs struct { unsigned q, г;) 
;  udiv 32by32 arm9e(unsigned d, unsigned n) 

udiv 32by32 arm9e ;instruction number ; comment 
CLZ s, q ; 01 ; find normalizing shift 
MOVS а, q, LSL s ;02 ; perform a lookup on the 
ADD a, pc, a, LSR1t 25 ;03 ; most significant 7 bits 
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LDRWEB а, Га, {32-32 - 64| ;04 . of divisor M 
b32 5085 s.s. #7 :05 ; correct shift 9 
RSB n, q, #0 06. m= - d Ж 
МУЛ. q, a, LSL s ;07 ; 可 approx (1 << 32)/d J 
;lst Newton iteration follows а 
MULEL а, 9, n 08: а= - дка “п 
BMI  udiv_by_large_d ,09 ; large d trap 3 
SMLAWT q,q.a.q ;10 ; q approx q — (q s q * d >> 32) = 
TEQ п, m, ASRJ1 111 ; check for d=0 or d - 1 9 
2nd Newton iteration follows 
ИЛНЕ а, а, 2 112:а= - пажо 
MOVNE s, #0 113. 570 
SMLALNE s, G, a, q 14 ;9=9- (q* q% d > 32) 
BED udiv by Q0 or 1 1:15 , trap d=t or d= 1 
rg now accurate enough for a remainder r, 0< =г<3+4 
UMULL з, q, r, q 116; g = (r * q) y> 32 
ADD Y, r, ñ 217, r=n- da 
MLA r, q, m, r 18; r= n-(q+1)x d 
sime 0 «2-7 n-gsd«z3«d,thus —d < = r< 2+4 
CHN r, m 119: t-2r-d 
SUBCS г, ү, m 120. Е (ЕС - d || t>2=0) r= r+d 
АШХС 9,9, #1 121; i£ (- d< = t 66 640) q= q+1 217 
ADDPL г, r, m, LSL#1 ;22 1 1f(t>=0)( r= r-2<d 
ADDPL а, q, H2 1233: 4= 9+2) 
BX lr | {24} return {9, r) 
udiv by large d 
за this point we know d >= 2:(31- 6) = 2725 
SUB а.а, #4 125 : Set q to be an 
RSB 8, S, HO 126 , underestimate of 
MOV qs а, LSR s 127, (1 << 32) /d 
UMLL s5,q г, ;:28 , q= (nx д) >> 32 
HLA r, qr m, Г 129; r=n-q*ú 
iq now accurate enough for a remainder r, 0< = r« 4x d 
CMN m, r, LSR 1 ;30 ; if (r/2 >= d) 
ADDCS r, r, m, LSL#1 131 Í r=r-2x d; 
ADDCS  q,q, #2 32. q=q+2;) 


‚ CHH m, r {334 if (r >s d) 
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ADXCS  r,r,m idd.ir-r-d 
ADXS 4,9. #1 35; g5q*1p 
ВХ lr :36 , return (q, rj 


udiv hy 0 or 1 


carry seb if d- 1, carry clear if а= 0 


MOVCS qr 37.i4f(d-DÍíg-2n 
MOVCS г, #0 ;38 | г-0;} 
MOVCC q, d-1 ;39 , if (0== 0) Í q = - 1; 
MOVCC r, #-1 ; 40 ; r--1i 
BX lr :dil ; return {q,r} 


table for 32 by 32 bit Newton Raphson divisions 
;table[ 0] = 255 
;table[i]= (1 << 14)/(64+i) fori=1,2,3,...,63 
t32 DCB Dxff, Oxfc, üxf8, Oxf4, OxfO, Oxed, Охеа, Охеб 
DCB Qxe3, Охей, Oxdd, Охаа, Oxd7, Dxd4, Oxd2, Dxcf 
РСВ Üxcc, Üxca, Oxc7, 0хсо, Oxc3, 0хс0, ОхБе, Oxbc 
ПСВ Üxba, OxbBü, Oxb6, Oxb4, Oxb2, 0х0, Охае, Üxac 
ПСВ Dzaa, OxaB, Oxa7, Охаб, ОхаЗ, 0ха?, Oxad, Ox9f 
РСВ Üx9d, бх9с, бх9а, 0x99, 0x97, 0x06, 0х04, 0x93 
DCS 0x92, 0х90, OxGf, 0х8е, ÜxSd, 0хВс, OxBa, 0x869 
DCB 0x88, 0x87, 0x86, 0x85, 0x84, 0x83, 0x82, 0x81 


【证 明 7.2] {ЧА ДЕЙ НИТ. ТЕНИ ELE HIT EST 
各 条 指令 都 用 行 号 作 了 标注 。 
ЖЖ: 一些 指令 执行 是 有 条 证 的 ,注释 只 给 出 了 指 今 被 执行 时 的 情况 。 


根据 除数 d 的 大 小 ,整个 执行 可 以 分 成 几 眉 不 同 的 代码 流程 ,以 分 别处 理 不 同 的 情况 。 
在 前 面 的 代码 中 ,使 用 Te 作为 第 上 条 指令 的 简短 注释 。 


Саве 1 d=0 : 包括 返回 语句 ,在 ARMIE 上 共 占 用 27 个 局 其 


对 这 种 情况 的 验证 如 下 :只 有 当 0550 时 ,load 语句 才 会 条 件 执行 , 从 而 避免 了 104 的 查 
表 。 这 就 确保 了 不 需要 读 完 (read off) 表 格 的 开头 。 由 于 101 设置 了 * 一 32 ,在 109 就 不 会 有 
任何 跳 转 ，106 设置 了 m=0, 因 此 I11 设置 了 2 标志 ,并 清除 了 进位 标志 。 在 115 | 
定 情况 的 代码 ， 


Case 2 d=1 : 包括 返回 语句 ,在 ARM9E 上 共 占 用 27 个 周期 
这 种 情况 与 4 一 0 的 情况 类 似 。 尽 管 确实 会 发 生 在 TOS 的 表格 查找 ,但 结果 可 以 忽略 
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06 设置 了 m= 一 1, 111 设置 了 Z 标 志和 进位 标志 ,在 137 的 特定 代 友 返回 结果 g= 


п.ғ=0, 
Case 3 254 <27, 和 包括 返回 语句 ,在 ARMSE 上 共 占 用 36 个 周期 

这 种 情况 是 最 麻烦 的 。 首 先 通 过 4 的 最 高 几 位 执行 查 表 ,得 到 一 个 2° /4 的 估计 和 值 。 
101 得 到 了 满足 2 所 qd2:<23 的 移 位 值 ;。102 设置 4 二 d2; ,103 m I04 使 用 a 的 最 高 ? 位 来 
执行 表格 查找 ,这 里 用 如 表示 ,和 是 介 于 64 和 127 之 间 的 一 个 索引 值 ， 把 d SUR 7 位 引 人 
一 个 误差 值 fo: 





б = 2d- ор 1 (7.5) 
设置 ú 的 查找 值 ао table[ — 64 1= 25" — Bo go e f] ALTRE LOS p sl. 
然后 








— 2" — 2" Eoto 214 fs i, + fo 
а= в = (1 ва. — (+ go =r ) (7. 6) 
注意 从 式 (7, 488 + = 7 d НААНА л: 
ау = а-а) en = Еу АА (7. 7) 


因为 通过 5 的 选择 ,得 到 64. = 如 十 fa Z128, 这样 一 HT taa Sg Y, >? BT d 
2", B. 527,105 A 107 计算 下 面 的 值 放 在 寄存 器 了 中 : 


= aUa = ca) | 
q = Ga = 20 (7.8) 


这 是 2 d 1 的 一 个 比较 好 的 初始 估计 值 。 现 在 进行 2 次 Newton - Raphson 选 代 ,以 提 
高 估计 值 的 精确 度 。 根 据 方程 式 (?, 9) ,108 LIO 更 新 了 寄存 器 4 和 g WEERT RQ. 
108 使 用 m= —d 来 计算 a 的 值 。 由 于 422,24 d= Н, 9 &<2*”, н },=0,ь=64, 
g;—1,e—27*, Big. Æ 110 就 可 以 使 用 有 符号 乘 累 加 指令 SMLAWT 来 计算 q 
= 2# — dg, = 2%, | 
Ф = qo + (((a, >> 160g) >> 16) 
右 移 分 别 引 入 了 截断 误差 SA <1 0n. 


32 
q, = g + (275 —- f,)q = Ead- fic ay) — g, (7.10) 


(7.9) 


23 : 
фз = 7; — е1). Bl ё 一 & +A- e)2 +gid?” (7,11) 


这 个 新 的 近似 值 qi ШИЙ. HREM eoe. 112,13 和 1I14 实现 了 第 2 Newton - 
Raphson 选 代 ,并 且 更 新 了 寄存 器 za 和 9 SED a0 q, 
a, = 2 d = Fe , Q = m + (аф) >> 32 (512 
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青 一 次 移 位 引 人 了 截断 误差 О 1: 
i 
Ф = gi aq2 — gs = =a — e) ;这 里 e, = ei + grd2 «eu + 427° (7,13) 


现在 的 近似 值 d :已 相当 精确 了 。 在 方程 式 (7. 10 T6 通过 设置 q WES a RI 
计 秆 mn/d。 这 个 移 位 引入 了 一 个 会 人 误差 Оу, 


的 一 (2) >> 32 一 ng,2 — р: 一 也 一 所 ,这 里 ga 一 Tez + gs <J +2 


(7.14) 
误差 是 一 个 比较 小 的 正 数 , 但 到 底 有 多 小 呢 ? 通过 证 明 ej 22 ,本 得 到 ое 3. 
下 面 分 几 种 情况 来 讨论 。 
Case 3.1 2<4<16 
在 这 种 情况 下 ,各 截取 值 没有 丢弃 任何 位 ,因而 = fi- а= 0, 进 而 有 ey 一 6 , 且 
Sig? “。 表 格 7.2 明确 地 计算 了 志和 go 的 值 。 
表 7.2 对 较 小 值 4 的 误差 值 





а ig m a Pe 
2,4,8,16 64 1 2-5 1 
3,6,12 96 2//3 2-* 1 

8,10 80 A//5 2-5 1 
7,14 112 2//1 27? «1 

9 72 5//9 5+2-—!! <l 

11 88 2//11 2 <1 

13 104 77713 Fago! <l 

15 120 8//15 275 <1 


Case 3.2 16-d«;256 
M 0.5 BORA Le [27 . 由 于 户 = а= 0.84 ¿< cd”, 
Case 3.3 256<d4<512 
则 f cl EWIeIx2*. AF A= д 0,808 d«2-7 dz, 
Сазе 3.4 512< d«25 
则 fol 意味 着 |o| 委 2 一 。 因 此 ,el c2 7275-4277. BE D—V/d277 А 2-7 
KDI, BL e «D (2754275275) DUE BR BAS, 


已 知 e, 3, 1167123 计算 了 3 个 可 能 的 n/d 的 结果 gq， Eq t AnA I 
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Case 4 2” 扩 qd; 包括 返回 语句 ,在 ARMIE 上 共 占 用 32 个 周期 
这 种 情况 开始 与 Case 3 相同 ,对 i, 和 a, 有 相同 的 方程 式 。 但 随后 跳 转 到 125, 对 a RUE 
4, 并 右 移 (7 一 5 位 。 这 样 就 在 式 (?. 15) 中 给 出 了 近似 值 g. WE 4 的 运算 使 得 gi 是 一 个 
224 indi felit 对 一 些 截断 误差 Os g <1: 
qo = (2-4) >> q= = Tg (7.15) 


Ü 


342 ai 
ъ= 65 е oir pg 2 12 (7.16) 


ip 
H TO"d 1) 0р SREE = 27*,8:f88l ose 3, 128 设置 q 的 估计 商 值 为 9 。 
对 截断 误差 Osce «1. 
Ф = Оф») >> 32 = бү g = J оре —Ё (7.17) 


ШЖ, È n/d КИНЕ RETETA Жз JL 128-—-135,{#Ш—4 2 步 的 二 分 搜索 
(binary search) 来 确定 最 后 的 结果 。 


7.3.3 无 符号 小 数 Newton-Raphson 除法 


本 小 节 将 介绍 利用 Newton-Raphson 技术 来 实现 小 数 除法 运算 。 小 数 的 值 是 用 定点 算 
法 表示 的 ,这 对 DSP 应 用 是 很 有 益 的 。 

对 于 小 数 除法 ,首先 要 按 比 例 来 缩放 除数 ,使 其 在 范围 0. 5с4<11,0 之 间 ; 然 后 使 用 查 
表 来 提供 一 个 d RRI zx ;最 后 ,以 N=0 进行 Newton-Raphson Ж, Д7, 3. 2 小 节 
BERI C EIU: 

Tra = 2z,— ах! (7.18) 

随 着 i 的 增加 ,zx; 的 精确 度 越 来 越 高 ， 为 了 得 到 最 快速 的 实现 ,在 i 值 比较 小 时 ,可 以 使 
用 低 精 度 的 乘法 ,然后 随 着 每 次 迄 代 逐步 提高 精度 。 

这 样 就 得 到 了 比较 短 和 且 快 速 的 程序 。7. 3. 3. 3 小 节 给 出 了 一 个 15 位 小 数 除 法 的 程序 ， 
?.3.3,4 小节 给 出 了 一 个 31 位 小 数 除法 的 程序 。 此 外 ,对 程序 进行 了 相当 册 难 的 证 明 , 也 
就 是 证 明 对 所 有 可 能 的 输入 情况 都 可 以 得 到 正确 的 结果 。 对 于 31 位 除法 ,不 可 能 对 每 个 
除数 和 被 除数 的 组 全 都 一 一 测试 ,所 以 必须 证 明代 码 的 正确 性 。7. 3. 3. 1 小 节 和 7. 3. 3.2 
小 节 涉 及 一 些 在 7.3. 3.3 小 节 和 7. 3, 3.4 小 节 证 明 中 需要 的 数学 理论 。 如 果 读 者 对 这 些 理 
论 不 感 兴 趣 , 可 以 直接 跳 到 7, 3. 3. 3 小 节 。 

整个 分 析 过 程 ,使 用 了 下 面 的 符号 ， 


e ¿Rise | gak E del, 
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e i 是 迭代 的 计数 值 ; 

e kii xi m E R, RHE kiti 226,223; 

e + Jd ИН, WE 0<х,<2— 2 t; 
e х}&2! WARG 


ө 。= 了 了 一 zi 是 z, 的 误差 值 ,并 保证 |e:| 0. 5. 
随 着 每 一 次 迁 代 ,增加 友 , 减 小 误差 6。 首先 来 看 一 下 如 何 计算 一 个 好 的 初始 估计 值 >. 


如 果 对 Newton - Raphson 理论 不 感 兴趣 ,可 以 跳 过 这 2 小 节 ,直接 跳 到 7. 3. 3. 3 小 节 。 

首先 通过 一 张 按照 a 的 最 高 有 效 位 进行 查找 的 表格 来 找到 4 的 初始 估计 值 zx。 为 了 
平衡 表格 大 小 和 精确 度 之 间 的 关系 ,通过 d 的 最 前 8 个 小 数位 作为 索引 值 , 返 回 一 个 9 位 的 
估计 值 zx 。 由 于 d 和 zu 的 第 一 位 都 是 1 ,那么 就 只 需要 一 张 包含 128 个 8 位 人 口 的 查找 表 
格 ( 即 该 表格 有 128 ARM). 

假定 a 是 d 的 最 高 位 及 其 后 面 7 位 的 整数 表示 形式 。d 936 В: (128+а)2 d — 
(129 十 a)2-* 。 取 中 间 点 c= (128. 543-2025 ,定义 查找 表格 为 


table[a]=round(256.0/c) 一 256; 


这 是 浮 点 表示 形式 ,round 表示 取 小 数 的 最 接近 的 整数 值 。 在 不 支持 浮 点 运算 的 情况 
下 ,为 了 方便 计算 ,可 以 把 它 简化 成 一 个 整数 的 形式 ， 


table[a]— (511 * (128—a))/(257+2 * a); 


很 明显 ,表格 的 所 有 入 口 都 在 范围 0~255 之 间 。 开 始 Newton - Raphson 迭代 之 前 , 设 
Е z. = 1 十 table[o]2-* ,一 9。 看 一 下 7.3.3.3 小 节 ,将 会 关注 到 下 面 的 误差 项 ， 
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E = Фе +d?” (7.19) 
首先 ,看 d|eo| WR e 0, А 
d | eo |= tod — 1 < х,(129+„а)2* — 1 (7.20) 
d | е |< ((256 + table[a]) (129 +a) — 2™)2™" (7. 21) 
ШЖ „20, 2, 
а|ев|=1—%4<1—(128+„а)2`* (7.22) 
d | e |< (255 — (256 + table[a ]) (128 + a))2 "15 (7. 23) 


尝试 a 的 所 有 可 能 值 ,就 会 发 现 dle | 二 299X2-“。 这 是 一 个 最 好 的 可 能 范围 。 取 4d= 
(133—е)27*,1Е% e 的 值 越 小 ,就 能 得 到 越 接近 的 范围 。 用 同样 的 方法 也 可 以 找到 E 的 精 
LESSE 





7 基本 运算 优化 
E2* < ((256 + table[a]) (128 + a) — 2*)* + (129 + a)2° (e < 0) (7.24) 
E2? < (216 — (256 + table[a ]) (128 + a))° + (129 + a)2* (e 22 0) (7.25) 


尝试 a 的 所 有 可 能 值 ,可 以 得 到 很 精确 的 范围 :E 二 2 “。 因 为 表格 的 最 大 入 口 值 为 
254, 这 就 验证 了 zo 委 2 一 2 。 
本 小 节 将 分 析 每 次 小 数 Newton-Raphson 迭代 所 引入 的 误差 ， 
ха = 22; — dr? (7.26) 
要 精确 计算 这 个 迭代 ,通常 是 比较 缓慢 的 。 由 于 zw J R AER HE k {у AA 


过 2 位 精度 是 毫 无 意义 的 。 下 面 给 出 了 计算 迭代 的 实用 方法 。 和 迭代 保存 了 在 7. 3. 3 小 节 
中 定义 的 Zi 和 ei 的 界限 。 





(D 正确 计算 z: 
й (4-a) Но< 294-264 pa (7.27) 
@ 计算 d 的 低估 计 值 d ,通常 d 为 2k, 位 。 只 需要 
0.5<d,= d— f, ñl0 < f, «2^ (7.28) 


@ 计算 dizi H ki H1 位 的 近似 值 y;, 且 0<у,<4, {Ж y; 尽 可 能 精确 。 然 而 ,也 需要 
使 误差 值 g i E 
y; = dixi — gi — 22 < g, < 2 — 22-ha (7.29) 
@ 使 用 一 个 正确 的 减法 ,计算 新 的 估计 值 Tl —2r,—yi. 将 会 证 明 0<zi+l<2, 因 此 
AR kai. 
Br ka DEB ASTE z ДЕ 7.3.3. 1 小 节 中 的 特性 , 接 下 来 计算 新 的 误差 e+; 。 首 先 
检查 Zi+1 的 范围 ， 


хт = 2z; — dizi + gi < 2x, — 0. 5x + g, (7. 30) 


后 面 关于 c ЮАР z <2 有 正 的 斜率 ,这 样 就 可 以 在 x; 是 最 大 值 时 ,多 项 式 也 达到 最 
大 值 。 因 此 使 用 关于 &; 的 界限 ， 


хн < 2(2— 2*5) — 0. 5(4 — 2*** p 2426) + g, < 2 — 2^5 (7.31) 
53 —J iii H T es0.5,g,2 —0. 25,88 
ха 2 2z, — 1.5z, + g, > 0 (7. 32) 


最 后 ,计算 新 的 误差 
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— inf) -g = д ра (139 


容易 验证 得 到 lei | «0. 5% 





当 计算 比例 nd 的 一 个 015 表示 时 ,其 中 n 和 d 都 是 16 位 的 正 整数 , 且 0<л<4< 
2 ” 。 其 实 就 是 要 计算 


а= (n << 15) /d 


使 用 7. 3.1. 2 小 节 中 的 程序 udiv_32by16_arm7m, 通 过 试探 减法 可 完成 上 述 运算 。 然 而 ， 
下 面 的 程序 在 ARMV5E 上 可 占用 更 少 的 周期 数 , 而 计算 出 同样 的 结果 。 如 果 只 需要 一 个 结果 
的 近似 值 , 那 么 可 以 把 15—118 的 指令 移 去 ,这 几 条 指令 是 用 来 纠正 初始 估计 值 的 误差 的 。 

这 个 程序 在 许多 地 方 危险 地 转向 似乎 不 正确 ,所 以 随后 需要 证 明 其 正确 性 。 证 明 使 用 
了 7.3.3.2 小 节 的 理论 。 如 果 代码 要 求 对 另外 的 ARM 核 进行 改变 或 优化 ,那么 这 个 证 明 
可 以 作为 一 个 有 用 的 参考 。 在 ARM9E 上 整个 程序 包括 返回 指令 占用 了 24 个 周期 。 如 果 
d<n<2" ,那么 就 返回 饱和 值 0x7fff。 
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9 RN 0 ;input denominator d, quotient estimate q 

š RN 1 ;input numerator n, remainder r 

s RN 2 ¿normalisation shift, scratch 

d RN 3 :015 normalised denominator 2^14< = d— 2715 
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¿unsigned udiv q15 arm9e(unsigned d, unsigned q) 

udiv q15 arm9e ;instruction number . comment 
CLZ s, q ;01 ; choose a shift s to 
SUB 8, з, #17 :02 ; normalize d to the 
MOVS d, q, LSL s ;03 ; range 0.5<0<1 at 015 
ADD а, pc, d, LSR# 7 ;04 ; look up q, a Q8 
LDRNEB q, [9, #t15- b15- 128) ,05 ; approximation to 1//d 

b15 MOV r, r, LSL s ;06 ; normalize numerator 
ADD q, q, #256 ;07 ; part of table lookup 
;9 is now a Q8, 9 – bit estimate to 1//4 
SMLBB s,q,q ;08 ; s= q* q at 016 
CMP r, d ;09 ; check for overflow 
MUL 5,4, з 310; s=q*q* d at 031 
MOV q, q, LSL 9 ;11 ; change q to 017 


SBC 9, q, s, LSR#15 ;12 : q*2*q- q* q * d at 016 
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sq is now a 016, 17 — bit estimate to 1//d 


SMULWE ц, ú, r ;13 ; q approx n//d at 015 

BCS overflow 15 ;14 , trap overflow case 

SMULBB 8, q, d | ;15 , з= q * d at Qo 

RSB r, d, г, LSL#15 ;16 ; r= n -— d at 030 

СМР г, 8 {17.1Ё (r> = s) 

ШР. 94,9, #1 | ;1B qu 

BX lr +419 . return q 
overflow_15 

LDR q, = ОХТЕРР ;20 , q = ОХТЕЕЕ 

BX lr 121 ; return q 


itable for fractiona] Newton Raphson division 
;table[a] = Cint)((511 ж (128  4))/(2512 +2 * a)) 0< = a«7128 
t15 DCE Oxfe, Oxfa, Oxf6, Oxf2, Oxef, Üxeb, Üxe7, Oxe4 
DCE Охей, Oxdd, Oxd9, üxd6, Oxd2, Üxcf, Охсс, 0хс9 
ОСА бхсб, Oxc2, Oxbf, Oxbe, Dxb3, Oxb6, Oxb3, 0хЬ1 
DCH Qxae, Üxab, OzaB, 0ха5, Охаз, OxaD, 0х9п, 0х9} 
OCB 0x98, 0x96, 0x93, 0x91, OxBe, OxBc, OxBa, 0x87 
DCR (x85, 0x83, 0x80, Ox7e, Ox7c, 0к?а, 0x78, 0x75 
ПСВ 0x73, 0x71, ОхбЁ, Qx6d, Ox6b, Ox69, 0х67, 0x65 
DCB 0x63, 0x61, 0x5f, OxSe, Ох5с, OxSa, Ox5B, Ux56 
DCR 0x54, 0x53, 0х51, Oxáf, Oxáe, Oxdc, Ох4а, 0х49 
DCR 0x47, 0x45, 0х44, 0x42, 0x40, Ox3£, Ox3d, Dx3c 
DCE 0хЗа, 0x39, 0x37, (x36, 0x34, 0x33, 0x32, 0x30 
ПСВ Ox2£, Ox2d, Ох2с, Ox2b, 0x29, 0х28, 0x27, 0x25 
РСВ 0x24, 0x23, 0х21, 0x20, Oxlf, Oxle, Oxic, Oxib 
ТВ üxla, 0x19, 0х17, Dx16, 0x15, 0х14, Oxl3, 0х12 
DCH 0х10, OxOf, Охде, OxOd, OxOc, OxOb, OxzDa, 0x09 
DCR 0x08, 0x07, 0x06, 0x05, 0x04, 0x03, 0x02, 0х01 


【证 明 7.3] ЖЕНЕ 101,102,103,106 规格 化 d ln 使 得 2525, РА 
除数 和 被 除数 进行 相同 数目 的 左 移 还 原 , 所 以 这 不 会 影响 计算 的 结果 。 考 虚 到 了 是 Q15 XE 
式 的 定点 小 数 , 且 0,.5sd<1。I09 和 也 4 RR H SUL, ER nd 的 情况 ,也 包含 了 4=0 
的 情况 。 假 定 从 现在 开始 没有 溢出 ,Io4,I05,107 设置 g 为 7. 3. 1.1 | ЕШ ЖЕ q (8 
9 位 Q8 形式 的 初始 央 计 值 z,。。 由 于 a 满足 0.5 所 4<<1, 在 查找 表 时 减 去 128, 这 样 d — 0.5 
就 与 查找 表 的 第 一 个 人 口 相 对 应 了 。 
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> 接 下 来 执行 一 次 Newton-Raphson Ж{%. 108 设置 a 29 zB) 916 形式 的 平方 ,110 设置 
< а № ах: 931 形式 的 值 。 这 里 需要 留意 一 个 细节 :验证 这 个 值 不 会 溢出 一 个 无 符号 Q31 
© | ”的 表示 范围 ,实际 上 : 
Ф 2 _ zi " = ео | 
- dii = = (1+2 PE TA. (7.34) 
| aU T w 尽 可 能 负 时 ,上 面 的 等 式 可 以 得 到 最 大 值 。 这 时 4 一 0. 529-27", 
Ф| n-2—-2",d:ic2-2 «2, 
9 最 后 ,111 和 112 设置 q 为 新 的 Q16 近似 值 x 。 由 于 进位 标志 在 109 清除 了 ,SBC 指令 
Q | deis. . 
Q д = 2% — dr? +g k Ë — 27 < g, <0 (7.35) 
О 。 使 用 方程 式 (7. 33) 来 求 出 新 的 误差， 
0s « — del — g, & del 4- 2^" (7. 36) 
113 计算 商 nd’ H Q15 近似 值 qi : 
Q =n -h-7-6 (7. 37) 
iSoscn-2"Rd4xX GB 
e = ne) + hi «de; +h <E +h < 2" (7.38) 


E 的 范围 可 以 从 7. 3. 3. 1 小节 得 到 。 因 此 ,gi 是 对 nd”! 的 误差 小 于 2-* 的 一 个 低估 值 。 最 
后 ,115,116,117 和 118 计算 余数 n 一 gd, 并 校正 近似 值 到 Q15 精度 。 


这 里 要 计算 一 个 比率 nd! H Q31 ER HP n Ad 都 是 32 位 的 正 整数 , 且 满 足 <n 
<d<<24 。 其 实 就 是 要 计算 | 


q = (unsigned int) (( ( unsigned long long ) л << 31) /4); 


可 以 使 用 7. 3. 1. 2 小 节 的 程序 udiv_64by32_arm7m, 用 试探 减法 来 完成 这 种 除法 。 然 
而 ,下 面 的 程序 在 ARM9E 上 只 需要 更 少 的 周期 数 , 就 可 以 正确 地 计算 出 相同 的 结果 。 如 果 
只 需要 一 个 结果 的 近似 值 ,那么 可 以 把 I21~129 的 指令 去 掉 , 这 几 条 指令 是 用 来 校正 初始 
估计 值 误差 的 。 

如 同 前 面 的 小 节 , 汇 编 代码 后 面 还 带 了 正确 性 的 证 明 。 这 个 程序 在 ARM9E 上 ,包括 返回 
指令 共 占用 了 46 个 周期 。 程 序 使 用 了 与 7. 3. 3. 3 小 节 中 的 015 除法 程序 同样 的 查找 表格 ， 


q RN 0 ;input denominator d, quotient estimate q 
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£ RN 1 ;input numerator n, remainder high г 
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日 RN 2 normalisation shift, scratch register "4 
d RN 3 1031 normalised denominator 2-30< = d«2731 Q 
a RN 12 scratch | 3 
E 

,unsigned udiv q3l armSe(unsigned d, unsigned д) (D 

udiv q3l armS9e ; instruction number ; comment a 
а^ 

CLZ 8. Ц ;01 ; choose a shift s to 3 

CMP Y, q ;02 ; normalize d to the = 

HOVCC d, q. LSL s 03 , range 0.5< = d< 1 at 032 $ 

ADDCC m, pc, d, LSR# 24 104 ; look up g, а QB 

LDRCCB с, [9, #015 – b31 - 128] ,05 ; approximation to 1//4 
b3l MOVCC г, г, LSL š ;05 ; normalize numerator 

ADDXC q, q, #256 107 ; part of table lookup 

;q is now a QB, 9- bit estimate to 1//d 

SMULBBCC а, 9, ч 108: а= q * q at 015 

MOVCS q, H Ox7FFFEFFF 09 ; overflow case 

UMULLCC s a, d, a 110 ; а= q* q * d at 016 

BXCS lr 11 ; exit on overflow 

RSB - q, a, q, LSL 间 9 112. q= 2 * q— q = q x d at 016 

19 із now a 016, 17 -bit estimate to 1//4 

UMULL а, s, q, 9 13, [s.a]= ож qat 032 

MOVS а, a, 1581 | ;14 ; now halve | s ,a | and 227 

ADC а, а,в, І5.#31 ;15 ; round so [N,a]= q * q at 

MOVS 8, в, LL30 ;16 . 031, C20 

UMULL s a, d, a 117 ; à = à w d at 031 

ADDMI a, a, d ;18 ; if (N a+ = 2 + d at 031 

BSC q, a, q, LSL# 16 {18 ; q=2x q- q* qx d at 031 

sq is now а Q31 estimate to 1/d 

UMULL S, Q, r, q ;20 , g approx п//а at 031 

:9 is now a 031 estimate to num/den, remainder« 3 ж d 

UMULL з, а, d, q 21 , [a,s]= d * g at 062 

RSBS в, 8, HO 22, [r,s]- n- ds q 

RSC r, a, r, LRH 1 ;23 , at 062 

{[г‹в] = (r << 32)Y+ s is now the positive remainder<3 x d 

SUBS 8,8. d :24 1 [r,8]2 n- (d DD q 

SBCS r,r, #0 125 , at 062 

ADDEL a, а. #1 026. if([r,s]2> = 0) q ++ 

SUBS 8, s, d ;27 ; [r,s]=[r,s]- d 
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SBCS r, r, #0 ;28 , at 062 
ADDPL а, 9, #1 29, if ([r,s1 > 20) à ++ 
BR lr {30 ; return q 


ПЕЙ 7.4) 首先 检查 <a 是否 成 立 ,如 果 不 成 立 , 则 经 过 一 系列 的 条 件 跳 转 指 令 在 
111 ЖЇНЇ ЯД ОхТНЕНН; ЖЕ d ЖП n 都 规格 化 为 Ф. Ё.В 2"sq«2", 107 与 7.3.3.3 
ЛА —Ж ЕЁ, о X Qa 形式 的 初始 近似 值 zx, 。 

198,110 fü 112 执行 第 一 次 Newton-Raphson 84%, 108 设置 a 为 жї] 916 Xx. По 
设置 a 为 dzxi 一 go 的 Q16 RR НІЙ Ы Оо, 27, H2 rH r t X 
WR d 的 新 的 近 做 值 。 方 程式 (7. 33) 给 出 了 这 个 近似 值 的 误差 eim dd — gs. 

3--119 执行 了 第 2 次 Newton-Raphson EX. 355 设置 4 Жа, = xz -+b ËJ Q31 
表示 ,如 是 误差 。 由 于 在 115 使 用 ADC 指令 ,计算 就 比较 集中 (round up), 因 此 0< < 
27", NTIU—1 和 2* 一 1 不 是 平方 数 , 所 以 ADC ЛЕН, НЕ, а 
ОЗІ RREN. НЯ, M 116 清除 进位 标志 ,记录 N Ж ЖУА m2. H7 和 
118 设置 a 为 yj 一 da 一 ct 的 031 表示 ,会 人 误差 Osce 279 。 由 于 进位 标志 清除 了 ,119 
设置 q 为 新 的 低估 值 的 Q31 ER: 、 


m = 2n а b) фа 2-9 =a (7.39) 
ё = dej — c +2 + db, < del 4 d27 427» | (7. 40) 
120 RE a HR q, = xz —b Ë 031 ER RARE ОЬ, ч 
ШЖ: 
Ф = 了 一 6 IE е — ne, +b, < бе] + 12% L а on (7.41) 


МЖ e 270,38 4 песа (275 qoy ;使 用 7. 3. 3, 1 小 节 中 下 的 范围 ， 
ез < 2-30 — d2^! 十 d'y 十 2-5 e 3 x 2-9 (7. 42) 


如 果 e «0, Xp 2. d'eixzdipgic279. RH e 3X279, 在 其 它 情 况 ,9 是 商 的 一 个 低 
WB ,误差 不 超过 3X2", 121-723 ИЯ, 124-129 执行 2 个 条 件 减 法 指令 来 校正 
Q351 结果 g, 


7.3.4 有 符号 数 除法 


前 面 讨论 了 无 符号 数 除法 的 实现 ， 如 果 要 对 有 符号 数 进行 除法 运算 ,那么 就 要 先 把 这 
此 数 变 成 无 符号 数 ,再 对 结果 加 上 相应 的 符号 位 ， 如 果 除 数 和 被 除数 的 符号 位 不 一 致 ,那么 
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商 是 负数 。 余数 的 符号 与 被 除数 的 符号 一 致 。 下 面 的 例子 显示 了 如 何 把 有 符号 整数 除法 变 |Y 
成 无 符号 除法 ,以 及 如 何 计算 商 和 余数 的 符号 位 。 9 
d RN Ü iinput denominator, output quotient j 
r RN 1 {юр numerator n, output remainder È 
sign RN 12 
= 
‚_чаіџе Іп regs struct { signed q, ri) 3 
с udiv 32by32 arm7m(signed d, signed n) $ 
sdiv 32by32 arm7m ^ 
STMFD spl, firj 
ANDS sim, d, #1 << 31 ;signs(d«0?1 << 31,0), 
RSBEMI d,d, #0 yif (040) dz - d, 
EORS sign, sign, r, AŠR 32 ;if (r= Ü) sign= = sign; 
RSECS г, г, #0 +if (r<0) r= - г; 
BL, udiv 32byJ2 arm7m (9,1) = (r/d,r% d) 
MOS зіп, sign, LSLdE 1 :С= sign[31], N= sign[ 30] 
RSECS d,d, #0 ;1f (sign[31]) d= - а; 
RSBMI г, г, #0 ;1É (sign[30]) r= - г; 
LDMFD gp!, {рс} | 
注意 ; 上 面 的 程序 与 程序 udiv_32by32_armyin — W 9 П 来 保存 商 和 余数 的 特 叶 位 ( 见 7,3.1.1 小节)。 229 


7.4 平方 根 


对 于 平方 根 , 可 使 用 与 除法 相同 的 技术 来 处 理 。 可 选择 试探 减法 或 Newton-Raphson 
选 代 来 实 更。 试探 减 法 适合 于 结果 不 超过 16 位 ,精度 要 求 比较 低 的 情况 ;而 对 结果 精度 要 
求 比较 高 的 情况 ,可 以 合用 Newton-Raphson 选 代 。?7,. 4. 1 小 节 和 7.4. 2 小 节 分 别 介绍 了 
试探 减法 和 Newton-Raphson 选 代 的 实现 。 


7.4.1 通过 试探 减法 计算 平方 根 


计算 一 个 32 位 的 无 符号 整数 а 的 平方 根 ,结果 是 16 位 无 符号 整数 g 和 一 个 17 位 的 无 
符号 余数 ,上 


а= A r,0sirsg (7.43) 
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ARM 嵌入 式 系 统 开发 





起 始 时 ,设置 a=0 和 + 一 4。 接 下 来 从 最 高 可 能 位 (第 15 位 ?开始 ,依次 向 下 试探 性 地 
设置 g 的 各 个 位 ， 如 果 新 的 余数 是 正 的 , 则 设置 该 位 。 特 别 地 ,如 果 通 过 对 gq 加 上 2" 来 设置 
位 ,那么 新 的 余数 是 | 

ras = d—(q-- 92) = (d—q)-—2"7!q4—2* — ry — 2" (2q + 2") (7.44) 


因此 ,为 了 计算 新 的 余数 ,可 以 尝试 减 去 值 2 529 十 2")。 如 果 上 减法 得 到 一 个 非 负 的 结 
果 , 那 么 就 设置 g 的 位 xn。 下 面 的 CC 代码 算法 实现 了 计算 2n fr Йй АЙЕ d 的 = 位 平方 根 4: 
unsigned usqr simple(unsigned d, unsigned N) 


{ 
. unsigned t, g= 0, r= d; 





do 

{ / * calculate next quotient bit * / 
н, / x nove down to next bit x / 
t-2*qtí(lec N; /*newr-cldr - (t zc NY жу 
if((r»» N) >= t)/*if (r >= (t << BD s/ 
{ 


г — (tec №; / ж update remainder * / 
q += (1 << N); / * update root » / 
} 
| while (N); 
return q; 


i 


使 用 下 面 优化 过 的 汇编 程序 来 实现 上 面 的 算法 ,包括 返回 指令 在 内 只 需 50 个 周期 。 这 
里 巧妙 之 处 在 于 计算 结果 的 位 N 之 前 ,寄存 器 q 保存 了 值 (1 << 30)| (q >> (N+1) D, 
如 果 对 这 个 值 进行 循环 左 移 (2N 十 2) 位 ,或 者 等 价 地 右 移 (30 一 2N) 位 ,那么 就 有 值 + << 
N ,可 以 用 于 试探 减法 。 


q RN Ü rinput value, current square root estimate 
r RN 1 the current remainder 
c RN 2 ¡scratch register 


usqr 32 unsigned usqr, 32(unsigned q) 
SUBS r,q, #1 << 30 pis g> = (1 << 15)%2% 
ADXC г, г, #1 << 30 1if not restore 





9 异常 和 中 断 处理 


进入 中 断 处 理 程序 
1 


保护 部 分 上 下 文 
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89.10 可 重 入 中 断 处 理 


没有 被 优先 级 排序 , 则 系统 延迟 性 能 会 下 降 到 与 嵌 套 中 断 处 理 相同 的 水 平 。 因 为 那样 的 话 ， 
低 优先 级 中 断 能 够 抢占 正在 被 服务 的 高 优先 级 中 断 ;同时 ,这 也 会 导致 在 低 优先 级 中 断 服务 
期 间 , 高 优先 级 中 断 得 不 到 响应 。 


СИ 9.10) 假设 寄存 器 r13_irq 已 被 设置 为 指向 一 个 12 字 节 的 数据 结构 体 ,而 不 是 指 
各 标准 的 IRQ 堆栈 。IRQ_spsr 等 偏 移 量 用 来 指向 这 个 结构 的 数据 项 。 像 所 有 的 中 断 处 理 
程序 一 样 ,需要 做 一 些 标准 的 定义 ,以 修改 寄存 器 cpsr 和 spsr。 
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ARM Ах S 


a RN 12 





scratch register/accumulator 


rsqr 32 ,unsigned rsqr 32(unsigned q) 


CLZ 8,q ;choose shift s which is 
BIC 8, $, {1 reven such that d = (q << s) 
MOVS d, q, LSL s 118 0.25«; = d«1 at 032 
ADDNE а, pc, d, 158# 25 table lookup on top 7 bits 
LDRNEB q, [q, # tab- разе - 32] ;of d in range 32 to 127 

base BEQ div by zero jdivide by zero trap 
Ар q, q, #0х100 ¡table stores only bottom 8 bits 
19 ig now a 08, 9 — bit estimate to L/sqrt(d) 
SMULBB а, q, q ‚а= джа at 016 
MOV b, d, LSR #17 sbhb=d  atQl5 
SMILWB а, а, Б а= d* q * qat 015 
MOV b, q, LSL #7 yb = q at 015 
RSB a, a, ЁЗ << 15 ia=(3- d* Q * q> at 015 
HUL а.а, b iq = 9% (3- d* q x q)/2 at 031 
;q ів now a (31 estimate to l/sqrt(d) 
UMLL Ьа, 4, д ‚а= сж q at 031 
MOV 8, 8, LSR #1 18quare root halves the shift 
М. basga а= d * q z q at 030 
RSB 8, 8, #15 jreciprocal inverts the shift 
RSB a, a, #3 << 30 а= (3— d* q * q> at 030 
UAL b, а, q 19= q * (3— dx q * q)/2 at 031 
;q is now а good 031 estimate to 1/sqrt(d) 
MOV q: q, LSR s ;undo the normalization shift 
BX lr ;return q 

div by zero 
MOV q, # OXTFFFEFFF ,maxium positive answer 
Bx lr 


return q 


tab i tab[ = round(256. 0/sqrt((k + 32, 32/128. 0)) - 256 
DCE Orfe, Oxf6, Oxef, Oxe7, Охеі, Oxda, 0х4, Oxce 
ICB  Oxc8, 0xc3, Oxbd, OxbB, Oxh3, Oxae, Üxaa, Oxa5 
DCB Oxal, Ox9c, 0х98, 0x94, 0х90, OxBd, Ox89, 0х85 
DCE  Ox82, Ox7f, бх?Ь, Ox78, 0x75, 0х72, Ox6Ë, Ox6c 
DCE 0х69, 0х66, 0х64, 0х61, ，0x5e，0x5C， 0x59, 0x57 
DCB 0x55, 0x52, 0x50, Ox4e, Oxic, 0х49, Qx47, 0x45 


7 基本 运算 优化 


Oxd3, 041, Ox3f, Ox3d, OxJb, Qx3a, 0x38, 0х36 
0х34, 0x32, OxJi, Ox2f, Üx2d, Ок2с, Üx2a, 0x29 
0x27, 0x25, 0x24, 0x23, Ox21, 0х20, Oxle, Oxid 
Üxlc, Oxla, 0x19, 0x18, Oz16, 0х15, Oxl4, Oxl3 
0х1], 0х10, OxOf, 0х0е, 0х0, Oxüb, Oxüa, 0х09 
Ox08, 0х07, 0х06, 0х05, 0х04, 0x03, 0х02, 0х01 


类 似 地 ,为 了 计算 让 ,可 以 对 方程 式 f(z) 二 a 一 rs 0 Н Newton-Raphson (0, 


7.5 ХЕБА .10р,ехр, ѕіп, соѕ 


3 ü 8 8 38 


可 以 通过 查 表 和 级 数 展开 来 计算 超越 函数 。 这 里 ,将 讨论 4 个 最 常用 的 超越 函数 的 实 
现 方 法 ;log,exp,sin 和 cos, # DSP 应 用 中 ,为 实现 线性 和 对 数 形式 的 转换 ,需要 对 数 利 求 
TERUEL. ВЯ sin 和 rcos 在 2D 和 3D 图 形 及 映射 计算 时 是 很 有 用 的 。 

本 节 所 有 例子 产生 的 结果 都 精确 到 32 位 ,对 很 多 应 用 来 说 ,这 个 结果 应 该 是 足够 了 ， 
也 可 以 通过 缩减 级 数 展开 来 改善 系统 的 性 能 ;然而 ,这 会 损失 一 些 精度 ， 


7.5.1 以 2 为 底 的 对 数 运算 


假定 ”是 32 位 的 整数 , 求 它 的 以 2 为 底 的 对 数 s= lb 有 ,也 就 是 n=2:。 由 于 :满足 0 
太 5<<32, 实 际 上 是 要 找到 一 个 Q26 形式 的 对 数 q, 使 其 满足 g=s2*”。 使 用 CLZ 或 者 7.2 节 
中 的 替换 方法 ,可 以 很 容易 计算 出 ;的 整数 部 分 。 这 样 就 把 数值 范围 缩小 到 了 Kac 
首先 对 п 的 近似 值 a 查 表 ,找到 1b a жа", H + 


lb n = lb a + Ib Z (7.47) 


式 中 : lb 表示 以 2 为 廉 的 对 数 。 现 在 已 经 把 问题 简化 为 寻找 Ib na, HT sa 51d 
较 接近 ,可 以 使 用 ТЬ (1 十 z) 的 级 数 展开 来 提高 结果 的 精确 度 


_In(1+x) 1 ror u 
Ь@+а = “СӘ = (2 Үт ) (7.48) 


AP: In 表示 以 。 为 底 的 自然 对 数 。 可 以 把 对 数 运 算 归 结 为 3 ОР, ИЩ 7. 4, 
(D 使 用 CLZ 指令 来 找到 结果 的 位 [33 25], 
© 通过 前 5 个 小 数位 查 表 得 到 一 个 近似 值 ; 
C 使 用 级 数 展开 来 计算 ,使 近似 值 更 精确 。 
下 面 的 代码 在 ARM9E 处 理 器 上 ,包括 返回 指令 共 需要 31 个 周期 结果 的 误差 不 超过 2-2 ， 
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ARM Лх ЖЯ A 








RN 0 
d RN 1 
r RN 2 
q RN 3 
RN 12 





图 7.4 对 数 计算 的 3 个 步骤 


;00 input, Q26 log2 estimate 


;normalise input 032 


;int ulog2 32(unsigned n) 


ulog2 32 
CLZ 
MOV 
MOV 
RSB 
MOV 
ADR 
LDR 


ulog2 table 


;table[2 * i] 


r, n 
d, n, LSL# 1 

d, d, LSL r 

n, г, #31 

г, d, LSR# 27 

t, 01092 table 

г, [t, г, БЕЗ]! 
q, [t, #4] 

t, #0 

ё, г, а, г 

t, = 0х55555555 
п, q, n, 151# 26 
tq г, Ё 

а, = 0x05c551d9 

t, 9, г, 

t, #0 

q» q, r, ASR#1 

Cy Ty Qy É 

t, 40 

t,n,d,r 


рс, lr 


= round(2732/a) 


;1« = 4<:2 at 032 
;integer part of the log 
estimate a = 1 + (r + 0.5)/32 


;r= 1b a at 026 
;q =1/a at 032 


;r = (а/а) -1 at 032 
;round(2^32/3) 

;n + 1b a at 026 

;q = r/3 at 032 
;round(2^26/1n(2)) 
;q = 12/3 at 032 


;q = - r/2 + г^2/3 at 032 
;r = r2/2 + r^3/3 at 032 


;n += r/lb2 at 026 


where a=1+(i+0.5)/32 











т 基本 运算 优化 





;table[2 + i+1]= round(2726 x 1log2(a)) and 0< = i«232 
DCD OxfcOüfcüfc, 0х0016е?97, 0х#4898060, Ox004Jacez 
DCD дхес? 3036, 0х006#2109, Охебс21449, 0x0099574f 
DCD 0хе070281с, 0х00с2515#, Oxda740da7, Ox00eadf72 
DCD 0xd4c7503, 0x0111307e, Oxcf6474a9, 0x0137124d 
DCD Охса4587е7, 0х015с01а4, 0xc565cB87b, Ox01800a56 
DCD 0хс0сӣ0сдс1, 0x01a33761, Üxbc52640c. Ox01c592fb 
DCD 0xb81702e0, 0x01e726aa, Oxb40b40b4, Ox0207fb51 
DCD ÜxbO2c0b03, 0х0228193#, Охас769184, 0x0247883b 
DCD Oxa8eB83f57, 0x02664f8d, Охаѕ7еЬ503, 0z02847510 
DCD 0xa237c32b, 0x02a20231, ОхЭҒ1165е7, Ox0Zbef9Ft 
DCD üx9c09c0Sc, Ox02db632d, 0x991f1a51, 0x02£7431£ 
DCD üx364fda6c, 0x03129e89, 0x939aB5c4, 0x032d7b5a 
DCD Ox90fdhc09, 0x0347dcfe, 0х8е793564, 0x0361c8025 
DCD 0x8c0Bc0Bc, 0x037b40e4, 0х89ае408а, 0x03944blc 
DCD 0x8767ab5f, Üx03acea7c, 0x85340853, 0х03052286 
DCD 0x83126e98, Üxü3dcf6Be, 0x81020408, Ox03f469c2 


SOAlILUBd рәлищас Z 


7.5.2 2 的 乘客 


这 是 7. 5. 1 小 节 的 反 向 操作 。 给 出 一 个 026 URB 032, 2 0 x КЖ 2°, 
开始 时 ,把 工分 离 成 整数 部 分 x RUN BS d WE o * 2"。 要 计算 2° ,首先 应 找到 q 
的 近似 值 a, 再 寻找 2^, 现在 
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2^ = 2° x exp((d — a)]n 2) (7.49) 
计算 z=(d 一 а) In 2, 并 对 exp (z) 进 行 级 数 展 开 , 以 提高 精度 ， 
i à 
кра = 1+л+% ++ (7.50) 


下 面 的 汇编 代码 实现 了 上 面 的 算法 。 结 果 的 误差 不 超过 4。 在 ARM9E 上 整个 程序 包 
括 返 回 指令 , 共 占 用 31 个 周期 。 


RN Ü ;input, integer part 


d RN 1 fractional part 
r RN 2 

q ЕН 3 

t RN 12 


;unsigned uexp2 32(int n) 
uexp2 32 
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ARM Ах 


uexpa table 


d, n, LSLÉ6 

а, d, LERH 27 

т, = 0xb1721718 
d. d, q, LSL # 27 
t, d, г, ú 

t, = 0x55555555 
d, d, r, 158#6 
t, r, d, t 

n, n, АЅЕЁ 26 
trd r 
negative 
rrd 

t, r, d, r 

t, uexp2_tahle 
Чч» [t G+ LSL# 2] 
г, d, г, ASR#1 
t,r, q, r 

n, n, #31 

T.I. q 

n, r, LSR n 

рс, ir 


гб, #0 
pe, lr 


(d = fractional part at 032 
estimate a = (q t 0.5) /32 
roundi 2732 x 1b 2) 

;d= d - (q/32) at 032 

; d = d * )b 2 at 032 
rround( 2-32/3) 

id= d — lb 2/64 at 032 

{т = 1/3 at 032 

,n- integer part of exponent 
;r 8572/3 at 032 

;catch negative exponent 
ir =d+ 02/3 

ir = 2 + 03/3 


;q = exp 2(a) at 031 

ir = d + F2/2 t d-3/6 at 032 

{у = ехр2(8) * r at 031 if r< 0 
;31 - (integer part Of exponent) 
scorrect if r>0 

;result at DU 


y2"( — ve) = Ü 


;table[i]- round(2-31 * exp2(a)) where a = (1+ 0.5)/32 
DCD 0х816401Е4, 0x843a28c4, OxB71f6197, 0х8а140575 
DCD OxBdladf5b, 0х80314с43, Ux935a2b2f, 0х96942437 
DCD 0х99е04593, Ox9d3ed9a7, Üxa0b05110, Oxa43515ae 
DCD üxa7cd93b5, Üxab?7a39b6, Oxaf3b78ad, Oxb311c413 
DCD üxb6fd91e3, Üxbaff5abZ, Oxbfl799b6, Oxc346ccda 
DCD 0хс78074с9, Oxcbecl4ff, Oxd06333db, Oxddf35aac 
DCD üxd99d15c2, Üxde60f4B2, 0xe33f8973, ÜxeB396a50 
DCD Üxed4£301£, Oxf281773c, üxf7dÜdF73, Охе Зеосоа 


7.5.3 


— К, 
三 角 函 数 


对 于 精度 要 求 不 是 很 高 的 应 用 (如 产生 正弦 波 和 其 它 音频 信号 或 一 般 图 形 处 理 ), 可 以 
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使 用 查 表 来 完成 三 角 函 数 运算 ;然而 还 有 许多 对 精度 要 求 较 高 的 应 用 ,例如 高 精度 的 图 形 处 
理 或 全 球 定位 。 这 里 介绍 的 程序 ,可 以 实现 精确 到 32 位 的 sin 和 cos 运算 。 | 
标准 C 库 中 的 sin 和 cos ҖЕ ИЗИШ. ША TRE И ДЕЕ ИЕ ВЕСЕ Н.Е 
的 。 首 先 ,应 对 性 何 角度 都 要 进行 一 次 模 2r 运算 ;其 次 ,还 要 判断 角度 在 哪个 象限 。 这 里 用 
模 2” 运 算 来 代 蔡 模 2r 运算 ,在 任何 姓 理 器 上 它 都 是 一 个 非常 容易 的 操作 ，。 
现在 先 来 定义 新 的 基于 2 的 三 角 函 数 ; 和 c。 这 里 角度 被 指定 了 一 个 比例 , 空 表示 一 
次 旋转 (2x rad 或 者 360 ) 。 使 用 标准 的 模 整 数 加 法 来 增加 角度 值 : 


slz) = sin (2wz2 325 = sin (nr?!) elr) = cos(nr2 l) (7,51) 
在 这 种 形式 下 ,zx 是 旋转 比例 的 932 角度 表示 。z 的 最 高 2 位 表示 角度 在 贺 的 哪个 象限 
首先 使 用 zz 的 最 高 3 位 ,使 xz) 或 rc(Cz) 转 化 为 0 一 178 圈 的 正弦 或 余弦 ;然后 选择 一 个 z 的 近 
似 值 ,使 用 查 表 来 得 到 sa 和 c(a)。 下 面 的 公式 把 问题 简化 为 寻找 小 角度 的 sin 和 соз: 
s(x) = s(a)cos (1(z— 202 3 十 cta)sin(t( —a22 71) (7. 52) 
c(x) = c(a)cos (лбх — a)?" ) + s(a)sin (一 0)2 ) (7, 53) 
接 下 来 ,用 弧度 来 计算 小 角度 n=x(z—a)2 ” ,并 使 用 下 面 的 级 数 展开 来 进一步 提高 精度 : 





3 z 
sin z= х созт =l- 5 +" (7. 54) 


可 以 使 用 下 面 的 汇编 代码 来 实现 上 面 sin 和 cos 的 算法 。 结 果 用 Q30 形式 表示 ,误差 
ЖЕ 4X2", Ж ARMIE 上 整个 程序 不 包括 返回 指令 ,占用 了 31 个 周期 。 


п RN 0 ithe input angle in revolutions at 032, result 030 
s ЕН 1 ;the output sign 

т RN 2 

q RN 3 

t RN 12 


cos 32  ,intcos 32(int п) 


EOR s, n, n, LSL#1 ‚сов is — ve in quadrants 1,2 
MDVS n, n, LSL# 1 angle in revolutions at 033 
RSEMI n,n, #0 jin range 0--1/4 of a revolution 
СИР n, #1 << 30 if angle < 1/8 of a revolution 
ВСС COS соге take cosine 
SUBEQ n, n, #1 otherwise take sine of 

^ RSBBI m, n, 1 << 31 1(1/4 revolution) - (angle) 

sin core :take sine of 033 angle n 


MOV q, n, ISR 25 approximation a = (q *0.5)/32 





ч! 
O 
Š 
3 
Ri 
Фф 
Q 
F 
d 
z 
多 


237 








epino sJecoleAegqd LUSISAS NAY 


238 


sin 32 


cos core 


ARM 嵌入 式 系统 开发 


SUB 


MOV 


MOVS 


MOV 


n, n, 9, LLH 25 
n, n, #1 << 24 
t, = 0х6487е051 
r, n, LSL 3 

t, n, r, t 


t, cossin іар 


Ч, Lt, q: 53]! 


t [t, #4] 

q, q, s, BSR# 31 
8, t, s, ASR# 31 
t, г, n, ñ 

t, 9. n, q 

t, n, Fr 5 

t, = 0xd5555556 
n, 8, n, ASRÉE 1 
t, 5, T, t 

n, n, q 

t, #0 

t, п. q, S 

рс, ir 


s,n, #1 << 31 
n, n, LSL# 1 

n, n, #0 

п, #1 << 30 
sin core 

n,n, #1 

n, п, $1 << 31 


q, п, LSR# 25 
n, n, g, 1561125 
n, n, 1 << 24 
t, = Ox6487ed51 
г, n, І81#3 

Е, n, r,t 


t, cossin tab 


q. Lt, а, ISL#3]! 


t, [t, #4] 





{п=п-(а/32) at 933 

n = n = (1/64) at 033 
round(2 + РІ + 2728) 

зг = n at 036 

,n= (х - а) * РІ/2731 at 032 


ela) at 030 

{&Са) at 030 
correct cla} sign 
;correct s(a) sign 
jn'2 at 032 

jns c(a) at 030 
(m2 + g(a) at 030 
,round( - 2732/6) 

үп = s(a) * (1 - m2/2) at 030 
157 ~ 12/6 at 032 
;n += c(a)*nat 030 


үп += — c(a) * r3/6 at 030 


return n 


,int sin 32(int п) 

віл is - ve in quadrants 2,3 
;angle in revoluations at 033 
зіп range 0—-1/4 of a revolution 
;if angle < 1/8 revolution 
take sine 

otherwise take cosine of 

; (1/4 revolution) — (angle) 
;take cosine af 的 3 angle n 
approximation a = (9+ 0.5)/32 
n= n-(g/32) at 033 

үп=п-— (1/64) at 033 

,round(2 # РІ « 2°28) 

rr > n at (26 

in = (x — a) * PI/2-31 at 032 


se(a) at 030 
ssia) at 030 


7.6 


FOR а, q, 5, bSR#31 зсоггесі cta) sign 
EOR з, t, 5, АЗЕ} 31 „correct sla) sign 
SMULL t, r, n, n rn"2 at 032 
SMULL t, s, n, 5 уп w sta) at 030 
SHULL t, ñ, F, q ;m2* c(a) at 030 
LDR +, = 0x2aaaaaab yzound( + 2723/6) 
SUB n, 9, n, ASR#1 in? с(а) * (1- m2/2) at 030 
SMULL tq r. t 1n^2/5 at 032 
SUB n. n, {п += -— sins n at 030 
MOV t, #0 
SMLAL t: n, s, q үп t= sins m3/6 at 030 
MOV рс, ir return л 

.cossin tab 





jtable[2 ж i] = round(2^30 * cos(a)) where a = (PI/4) + (i + 0.5)/32 
;table[2 +1 +1] = round(2-30 ж sin(a)) and 0 < = i < 32 


DCD Ox3ffec42d, 0х00с90е90, Ox3ffde5e0, Ox025bOcaf 
DCD üx3fel2acb, Ox03ecadcf, 0х3Ес395#9, Ox057db403 
DCD Ox3f9c2bfb, üx070del72, Ox3f6af2e3, 0x08ScF867 
DCD Ox3f2ff24a, 0xÜ0a2abh59, 0x3eeb3347, OxübhbGecef 


DCD 0х3е9сс076, 0х00415013, 0хЗеёлабеї, OxOecSaTf3 


DCD Ox3de2f148, 0х104#Ъ60е, 0х30770192, Ox11d3443Í 
DCD 0х3402Ё757, 05125410с3, Ox3cB4d496, 0х1491е242 
DCD Ox3bfd5cc4, Üxibdc7ddd, Ox3b6ca4c4, 0к17с3а931 
DCD Üx3ad2c2eB, 0к19372а64, (x3a2fcee8, OxlaaücH2b 
DCD 0x3983e1e8, 0xlcl249d8, 0х38сғ1669, Ox1d79775c 
DCD 0x3811884d, Oxledc1853, Ox374b54ce, Üx2039f90f 
DCD 0x367c9a7e, 0х2192е09Ь, 0x35a5793c, 0х22е69асВ 
DCD 0x34c61235, 0x2434£332, Ox33deB"7de, 0x257db64c 
DCD Üx32eefdea, 0х26с05162, 0x11f79948, Ox27fdb2a7 
DCD 0х30#8801#, 0х29348937, Ox2ffld9c7, 0x2a650525 
DCD Üx2ee3cebe, Ox2bBef 77d, OxZdceB8Baa, Üx2cb2324c 





字 节 顺序 反 转 和 位 操作 


基本 运算 优化 





本 节 介 绍 害 存 器 中 位 操作 的 优化 方法 。7. 们 1 小 节 介 绍 字 节 顺序 反 转 操作 ,这 对 读 取 
存放 在 小 端 存 储 系 统 中 的 大 端 文件 数据 是 很 有 用 的 ;7, 6. 2 小 节 介 绍 对 一 个 字 的 位 变换 , 比 
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如 ,位 取 反 ,以 及 如 何 支持 较 复杂 的 多 种 位 变换 。6. 7 节 讨 论 了 关于 位 流 的 打包 和 解 包 ，。 


7.6.1 字 节 顺序 反 转 


为 了 以 最 高 效率 来 使 用 ARM Ж 32 位 数据 总 线 ,就 要 一 次 装载 和 存储 8 位 和 16 位 数 
组 的 4 子 节 。 但 是 ,如 果 一 次 装载 多 个 字 节 ,那么 处 理 器 的 字 节 排列 方式 (大 ,小 端 } 将 会 影 
啊 到 它们 在 寄存 器 中 的 次 序 。 如 果 这 个 次 序 与 程序 所 希望 的 不 一 致 ,那么 就 需要 对 字 节 顺 


序 进行 反 转 。 


下 面 的 代码 完成 了 一 个 字 中 字 节 排列 顺序 的 反 转 。 第 1 段 代码 使 用 了 2 个 临时 寄存 
器 ,每 个 字 的 反 转 在 常量 设置 后 ,只 占用 了 3 个 周期 ， 第 2 眉 代 码 只 使 用 了 1 个 临时 寄存 
器 ,对 于 转换 单个 字 是 很 有 用 的 。 


n RN 0 
t РН 1 
m RN2 


byte rewerse 


byte reverse 2reg 
. EOR 
MC 
BIC 
EOR 
MOV 


;input, output words 
:Scratch 1 
;Scratch 2 


m, # 0х0000ЕР00 
t, n, n, ВОВ #16 
t, m, t, LSR#B 
n, t, n, ROR ЕВ 
pe, ir 


t, n, n, ROR# 16 
t, t, LSR3 B 

t, t, # OQxFFOO 
n, t, n, ROR #8 
po, lr 


{п=[ a,b,c,d ] 

im = [ OxFF ,OxFF , 0x00, OxFF'] 
{Е=[ ас, Fd, av, bd] 
;t=[ 0,ac,0,ax] 
п=[ dc ,ba ] 


in=[ a,b,c, d ] 
it=[ax, bd, ас, bd] 
it=[ 0,ас, Pd, ac] 
;t=[ 0,2,0, ас] 
n=[ d,c,b a ] 


在 ARM 中 有 桶 形 移 位 器 ,因此 对 一 个 字 中 的 半 字 反 转 不 需要 任何 额外 的 开销 ,因为 它 
与 循环 右 移 16 位 是 一 样 的 。 


7.6.2 位 变换 


7. 6. 1 小 节 中 的 字 节 反 转 是 位 变换 (bit permutations) 的 一 个 特例 。 还 有 一 些 经 常 磁 到 
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的 其 它 比 较 重 要 的 位 变换 ( 见 表 ?7.3)。 
37.3 ”常见 的 位 变换 





*db ke + 3k АЯТЕ 

Б (руте reversal) Lbs eha 1015 +1— b bz bo] 

位 反 转 (bit reversal} Db, эй bs bibo] [1— 5. L| b LE bl o.c] 
BLU Hu (bit spread) [Bi bs „Во bn aba |t ИЛ In Pn ba 2 

DES 7b s permutation) [55 by бз bo by ba ]— [1 — Ba io 161.1 —55,1— 45.1 — br] 


ө МИ ”把 位 有 和 位 (31 一 站 交换 : 

ӨЛ BARIER RAS 2; (Ч 16 Бр) (2631004 £16 BJ); 

e DES 3E DES 是 一 种 数据 加 密 标 准 , 是 对 大 批量 数据 进行 加 密 的 一 种 常见 算法 。 

该 算法 在 加 密 前 后 需要 对 数据 进行 64 位 的 变换 。 

如 果 在 手头 有 一 些 支 持 基 本 位 变换 操作 的 工具 第 ,那么 编写 优化 代码 来 实现 这 些 变换 
就 变 得 非常 简单 。 本 小 节 将 介绍 这 些 基本 位 变换 ( 见 表 7.40. 这 些 操 作 要 比 用 循环 来 依次 
检查 每 一 位 快 得 多 ,因为 它们 是 一 次 处 理 32 fri, 

#7.4 EXTARE 


A +W 1 $ KAS 

AG BERI [bem Oe 

BOREAS DS | [5.7 Bb) by is, b, enm] 
СЕНЯ) С Во Bem Bb, Ве] 


假定 要 处 理 一 个 2 位 的 值 #, 需 要 对 n 的 各 个 位 进行 位 序列 改变 ,那么 可 以 用 到位 索引 

来 表示 n 中 每 个 位 的 位 置 : 名 -2 十 … 十 而 2 十 和 。 因 此 ,要 对 32 位 值 进行 位 交换 ,可 以 取 

k-—5, 把 在 位 置 b_12*! T5245, 的 位 移 到 位 置 ca 12571 + +c,24- e, ,这 里 E ED b; 
或 1 一 6。 这 个 转 挽 可 表示 为 ， 

[Biss ubl сё," Cy осо] (7.55) 


举例 来 说 , 表 7. 3 显示 了 序列 改变 的 符号 和 执行 的 动作 。 

它 的 要 点 是 什么 呢 ? 任何 一 种 位 变换 都 可 以 通过 表格 7. 4 中 的 3 个 基本 的 位 变换 操作 
组 合 而 成 ， 实 际 上 ,只 需要 前 2 个 操作 ,因为 C 是 B 和 A 组 合 操作 的 结果 。 然 而 ,直接 执行 
C 可 以 更 快速 得 到 结果 。 


ЖТ, Дро ОЕ СБ, ,6 bubo UR 32 位 数 的 竺 定位 序号 。 一 一 译 者 注 
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下 面 的 宏 实现 了 一 个 32 位 字 的 3 个 基本 位 变换 操作 。 如 果 常 量 值 已 经 存放 在 寄存 
器 中 ,那么 每 个 变换 只 需要 4 个 周期 。 更 大 或 者 更 小 宽度 的 变换 ,可 以 用 同样 的 思想 。 


mask0 





EQU 0x55555555 ;set bit positions with b0 = 0 
maskl EQU 0x33333333 ¿set bit positions with bl = 0 
mask2 EQU OxOFOFOFOF ¿set bit positions with b0 = 0 
mask3 EQU OxO0FFO0FF — ;set bit positions with b3 = 0 

EQU 


mask4 0x0000FFFF ;set bit positions with b4 = 0 


opino SJedoleAed uuƏISÁS INJV 


MACRO 

PERMUTE A$ k 

iL bk... ]- 2C... 1-7 b k...]] 

IF $k=4 
MOV п,п,ВОК# 16 

ELSE 
LDR  m,-nmask$k 
AND — t,m,n,LSR& (1 << $k) ;get bits with index b_k= 1 
AND n,n,m ¿get bits with index b k = 0 
ORR n,t,n,LSLdt (1 << $ k) ;swap them over 

ENDIF 

MEND 

242 
MACRO 


PERMUTE B $ j, $ k 
拒 ..b j.,]- >[..b k.. b. j..] and jk 


LDR n, = (mask $ j; AND; ; NOT; mask $ k) set when b j=0 bk=1 
EOR t,n,n,LSR# (1 << $j)- (1 << $ k) 

AND t,t,m ¿get bits where b j!- b к 
EOR n,an,t,LSLd(1 << $3)- (1 << $k) ;change if bj=1 bk=0 
EOR n,n,t ;change when b_J = 0 b_k=1 
MEND 

MACRO 


PERMUTE C $ j, $k 

;[..b_j..b_k..]- >[..1-b k..1- b j..] and j>k 

LDR m, = (mask $ Jj; AND; mask $ k) ;set when b j=0bk=0 
EOR t,n,n,LSR8$(1 << $ j) + (1 << $ k) 

AND t,t,m ;get bits where b_j == b_k 
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EOR nnst,LSL#(1 << $j)+(1 << $k) ;change if bj=1 bk- 1 a 
ER Баж ;change when b_j = 0 b_k = 0 9 
MEND = 
3 
7.6.2.2 位 变换 例子 0 
下 面 是 这 些 宏 在 实际 中 的 应 用 。 位 反 转 操作 把 位 5 移 到 位 (31 一 5b) 。 换 句 话说 ,就 是 把 了 
索引 5 的 5 位 二 进 制 表示 中 的 每 一 位 进行 取 反 ,所 得 到 的 新 的 索引 表示 位 (31 一 6)。 用 5 个 3 
基本 位 变换 A 可 以 实现 位 反 转 ,就 是 依次 把 表示 索引 的 每 个 位 在 逻辑 上 取 反 。 5 
bit_reverse = [ b, b b b, b ] T 
PERMUTE А 0 >ы b bh b 1-Ь] 
PERMUTE A 1 ;=>[ b b, b 1—b,1—b,] 
PERMUTE A 2 ;-»[ bh b 1—b,1—b,1—b,] 
PERMUTE A 3 ;->[ b 1—-b,1—b;1—b, 1 一 bo] 
PERMUTE А 4 ; -> [1—-b, 1—b, 1—b; 1— b; 1— b] 
MOV рс, lr 
使 用 变换 B 可 实现 难度 更 大 的 位 扩散 变换 。 这 个 过 程 忽略 常数 设置 ,只 占用 了 16 个 
周期 一 一 比 使 用 一 次 测试 一 位 的 循环 快 得 多 。 
bit_spread ;n= [b, b; b; b, b] 
PERMUTE B 4,3 {= [b b, b; bi Ь,] 
PERMUTE B 3,2 ; - > [b; b; b, b, by] 
PERMUTE B 2,1 172 [bs b; b, b, by] 243 
PERMUTE B 1,0 => [b b; b; b, bi] 
MOV po, lr 
最 后 ,使 用 变换 C, 可 以 在 相同 的 周期 里 ,同时 进行 位 反 转 和 位 扩散 。 
bit_rev_spread ;n=[ b b b b b, ) 
PERMUTE C 4,3 -> [1-61-66 b b, bh] 
PERMUTE C 3,2 -> [1-01-62 b, b, b] 
PERMUTE C 2,1 -> [1-b1-b1-bj1l-b, bj] 
PERMUTE C 1,0 ;-2>[1 -b 1-b 1-b l-b, b] 
MOV рс, 1г 


7.6.3 “1 位 计数 


“ТУИ Cit population count) 就 是 计算 一 个 字 中 位 值 是 1 的 个 数 。 比 如 ,在 一 个 中 
断 屏蔽 中 它 可 以 很 方便 地 找到 中 断 设置 位 的 数目 。 如 果 累 加 和 不 相互 干涉 ,那么 ADD 指 
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ФНТР TERA. RECRUIT ЖЕШЕТ, ERR. 
3 位 分 组 计算 (Divide by three and conquer) 方 法 的 思想 是 ,把 32 位 字 划 分 成 3 位 的 组 ,每 
一 组 的 和 是 2 位 大 小 的 数 ,范围 在 0~3。 并 行 计算 这 些 3 位 组 ,然后 用 对 数 方式 加 起 来 。 
下 面 的 代码 实现 了 一 个 字 的 和 1 位 计数 。 这 个 操作 -一共 占用 了 10 个 周期 , 男 加 2 个 周 
期 建立 常数 ， 
bit count ;input п = xyzxyzXyzXyzXyzxyzXVzXyZXYZXy2Xy 
LDR m, = 0х49249249 401001001001001001001001001001001 
AND t. n, m, LSL #1 :х00х00х00х00х00х00х00х00х00х00х0 





SUB n, n, t, LSR #1 — ;uuzuuzuuzuuzuuzuuzuuzunzuuzuuzuu 
AND tn, t, LSR #1 :00200=00=00200200200200200200500 
ADD n n, t pou were vv 


;triplets summed, uu x fy, vv x ^ 4 *z 

LDR m, = OxCT1C71C? ;11000111000111000111000111000111 
ADD п, n, n, LSR #3 уугун rr DD ry 
Ар n,n,n E WHO C OwO Oww OO Osram COworwQ OO ним 
peach www is the sum of six adjacent bits 

ADD n п, п, LSR 6 э ;sum the ws 

ADD n, п, n, LSR #12 

ADD р, п, n, 158 #24 

AND n, n, #63 mask aut irrelevant bits 

MOV ре, lr 


77 饱和 及 舍 入 运算 





饱和 运算 可 以 把 一 个 结果 限制 在 一 个 固定 的 范围 ,以 防止 液 出 。 最 常见 的 是 16 位 或 
32 位 饱和 运算 ,用 下 面 的 操作 定义 ， 


9 satruatelêi (o =r RAEE 一 0x00008000 ~ --0x00007fff 
Ф satruate32(z) = 限制 在 范围 一 0x80000000 ~ -roxT7ffftIff 


虽然 可 以 很 容易 地 把 16 位 的 他 和 运算 例子 转换 成 8 位 或 其 它 长 度 , 但 这 些 操作 还 是 应 
该 引起 足够 的 关注 。 下 面 给 出 了 标准 的 基本 人 饱和 及 会 人 人 (四舍五入) 操作 的 实现 ， 这 里 将 使 
用 标准 的 方法 :对 一 个 32 位 有 符号 整数 x 


zr >> 31= sign (zm) =—1(х< 0) 
= 0 ( z >> 0) 





7.7.1 饱和 32 位 数 到 16 位 

这 个 操作 经 常 在 DSP 应 用 中 出 现 ， 比 如 ,声音 采样 值 在 保存 到 存储 器 之 前 , 训 被 已 和 
到 16 位。 这 个 操作 占用 3 个 局 期 ,常数 т 要 预先 存放 在 一 个 寄存 咀 中 。 

yb = saturatelbth) 

LDR m, = 0x00007FFF {т = OX7FEF maximum + ve 

KOV a, b, ASR# 15 а= (b >> 15) 

TEQ a, b, А5Е} 31 pif (al= sign(b)) 

EORRE b, n, b, АЅЕҢ 3i +b = Dx7EFY ~ sign( b) 
7.7.2 饱和 左 移 


在 信号 处 理 时 , 左 移 可 能 会 省 出 ,这 就 需要 饱和 这 个 结果 。 下 面 的 操作 对 常量 移 位 花费 
3 个 周期 ,对 可 变 移 位 花费 5 个 周期 。 | 


үа = saturate32(b << c) 


MOV m, FOXT7FEFFFFF ;# = ÜXTFFFEEEF пах + ve 

MOV a, b, LSbc а= р << C 

TEQ b, a, АБЕ с 1if (b 1= (a >> c») 

FORNE а, n, b, ASR# 31 за = OX FFEFFFE"siqn(b) 
7.7.3 €A58 


会 人 石 移 对 于 常数 移 位 需要 2 个 周期 ,对 于 非 零 变 量 移 位 需要 3 个 周期 
EX: 一 个 尝 变 重 的 欧 位 只 能 在 进位 清除 后 才能 正确 执行 。 


за = round(b >> c) 

ADS b,b, #0 ¡clear carry so works for c = 0 
MOVS a, р, AR c а= b >> c, carry= b bit c— 1 
ADC a, a, #0 :1Е (carry) а tt to round 


7.7.4 饱和 的 32 位 加 减法 


在 ARMv5TE 核 上 ,新 的 指令 QADD 和 QSUB 提供 了 饱和 加 法 和 减法 。 如 果 在 
ARMUT 或 更 早 版 本 的 核 上 , 则 要 使 用 下 面 的 代码 来 实现 。 代 码 需 要 2 个 周期 ,及 一 个 寄 
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存 器 保存 常量 . 
ға = saturate32(b + c) 
MOV m, {0х80000000 {ш = 0х80000000 max 一 те 
ADDS a, b, е а= btc, V records overflow 
EORYS а, n, a, ASR# 31 ;if (V) a = 0x80000000-signm(a) 


ја = saturate32(b- c) 


MOY n, }[0х80000000 ;m = 0хВ0000000 max -ve 
SUBS a, b, c а= b - c, V records overflow 
EORVS а, m, a, ASR#31 11Р (V) a = 0x800000007sign( a) 


әрп) sJedojeAec] WAAS [гу 


7.7.5 饱和 绝对 值 


如 果 输 入 值 是 一 0x80000000, 那 么 绝对 值 运算 就 会 溢出 。 下 面 2 个 周期 的 代码 处 理 了 
这 种 情况 ; 


за = saturate32(abs(b)) 
SUB a, b, b, LSR #31 а= b - (b«0) 


EOR а, a, а, ASR 31 ja7a^sign(a) 

类 似 的 原理 ,一 个 累加 非 饱 和 的 绝对 值 也 占用 了 2 个 周期 ， 
246 a= b+ abs(c) 

EORS а, c, c, ASR# 32 ja = c*sign(c) = abs(c) - (e0) 

ADC а, b, a а= b + а + (c«m 


7.8 随机 数 产生 | 
DELL 
要 产生 真正 的 随机 数 ,就 需要 特殊 的 硬件 作为 随机 噪声 源 ; 然 而 ,对 许多 计算 机 应 用 来 
说 ,比如 游戏 和 建 模 ,产生 的 速度 要 比 统计 纯度 重要 得 多 ， 这 些 应 用 通常 使 用 伪 随 机 数 。 
慷 随 机 数 其 实 不 是 真正 的 随机 数 ,只 是 一 串 重 复 序列 生成 的 数 ， 但 是 ,这 个 序列 足够 


长 ,也 足够 分 散 ,这 样 产 生 的 数 似 乎 是 随机 的 。 典 济 地 ,通过 选 代 一 个 简单 的 R,- BO ERE, 
取 伪 随机 数 序列 的 第 上 个 元 素 尺 ,: 


= f (Ga) (7. 56) 


为 了 快速 生成 伪 随 机 数 , 需 要 找到 一 个 函数 f(x)。 这 个 函数 要 容易 计算 ， 并 能 生成 看 
上 去 很 随机 的 输出 ， 这 个 序列 在 重复 之 前 ,也 必须 非常 长 。 对 一 个 32 位 数 的 序列 ,最 大 长 
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E AS ZU, 
一 个 线性 一 致 产生 器 使 用 下 面 形式 的 函数 ， 


fo) = (ажа фс) % mi 


这 些 函 数 在 Knuth BE RI Seminumerical Algorithms — 93.2.1 81 3.6 Trip 
经 详细 研究 过 了 。 要 取得 更 快 的 计算 速度 ,应 取 亲王 呈 。Knuth 书 中 的 理论 保证 了 ,如 果 
am8=5 且 c 二 ee; 那么 产生 的 序列 的 最 大 长 度 是 22 ,而 且 看 起 来 似乎 是 随 机 的 。 比 如 ,假定 
a7-0x91e6d625 ,那么 下 面 的 选 代 就 可 以 产生 伪 随 机 数 序列 ， 


MLA г,а, г,а ¿r k-(as* г (Е -1) + a ) mod 2732 


H T m EDRR LER ICE PAL ERHIE Br DEA ЯВ ВЕЕ А). COSE RS Bt DOR 43 Э Л 
围 的 伪 随 机 数 。 比 如 , 设 ;二 r >> 28, 产 生 一 个 在 范围 0~15 的 4 位 的 随机 数 ;。 更 一 般 地 ， 
下 面 的 代码 产生 一 个 0~n 的 伪 随 机 数 ， 

‚г is the current. random seed | 

;a is the multiplier (eg 0к91Е6р6А5) 

{п is the random number range {On ~- 1) 


SO^glUllid POZIO х 


ít is a scratch register 

М.А г, a, r, à ;iterate random number generator 
ШМ, Ё, s, r, n {8 = (гж n)/2-32 

¿r is the new random seed 


{8 is the random result in range peen- 1 247 


7.9 总 结 





ARM 指令 只 能 实现 简单 的 基本 运算 ,比如 加 法 、 减 法 和 乘法 。 要 执行 更 多 复杂 的 操作 
比如 除法 ,平方根 和 三 角 函 数 , 就 要 编写 软件 程序 来 完成 。 有 许多 有 用 的 技巧 和 算法 ,可 以 
改善 这 些 复 杂 操作 的 性 能 。 本 章 介绍 的 算法 和 例子 ,都 是 针对 一 些 标准 操作 的 。 


这 些 技巧 包括 ; 


旬 使 用 二 分 搜索 或 试探 减法 来 计算 小 的 商 ， 

e 使 用 Newton-Raphson 选 代 快 速 计算 开 方 和 倒数 ; 

e 使 用 查 表 和 级 数 诬 开 来 计算 超越 丽 数 ,如 exp,log,sin 和 cos; 

e. 使 用 带 桶 形 移 位 的 逻辑 操作 来 执行 位 交换 ,而 不 是 单独 检测 各 个 位 ， 
e 使 用 缚 累加 指令 来 生成 伪 随 机 数 。 





e 表 匠 一 个 数字 全 号 

€ Xf ARM 的 DSP -ñ& 
e FIR Я 

e IR 洪波 

e RI $ # 

e £ # 
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现在 微 处 理 器 已 经 有 足够 的 计算 能 力 来 寻 理 实时 数字 信号 ,如 大 家 册 悉 的 МРЗ 音频 播 
放 器 .数码 相机 .数字 移动 或 蜂窝 电话 等 。 数 字 信 和 号 处 理 需 要 足够 的 存储 器 带宽 和 快速 的 乘 
累加 运算 。 本 章 将 介绍 一 些 方法 ,使 ARM 处 理 器 在 数字 信号 处 理 (DSP) 应 用 上 能 获得 最 
好 的 性 能 。 

一 个 传统 的 髓 人 式 或 便携 式 设备 一 般 包括 2 类 处 理 器 :一 个 微 控制 器 处 理 用 户 接口 ; 另 
一 个 独立 的 DSP 处 理 器 处 理 数字 信和 号 ,如 音频 。 然 而 ,由 于 出 现 了 更 好 人 性 能 和 更 高 时 钟 频 
率 的 处 理 器 ,现在 开发 者 能 够 使 用 单个 处 理 器 来 处 理 上 述 的 2 项 任务 。 相 对 于 双核 的 方案 ， 
单 核 设计 能 够 减少 旨 用 和 降低 功 耗 。 

ARM 体系 结构 的 加 强 使 ARM 可 以 很 好 地 适 于 许多 DSP 应 用 ,在 ARMSE 及 以 后 的 
ARM 核 中 使 用 的 ARMv5TE, 提 供 了 高 效 的 释 轩 加 操作 。 通 过 仔细 的 编码 ,ARM9E 处 理 
器 在 应 用 系统 的 数字 信号 处 理 部 分 可 以 获得 高 效 的 性 能 ,同时 在 应 用 系统 的 控制 部 分 又 可 
以 胜 过 DSP, 

DSP 应 用 一 般 对 乘法 和 数据 存 取 概 求 很 高 ， 一 个 基本 的 操作 是 乘 累 加 , 即 把 2 16{у 
4 7 S PUE ,并 把 结果 累加 得 到 一 个 32 位 的 有 符号 和 。 囊 8.1 SUR TRIB] ARM ЖЕ 
的 递增 。 第 2 列 给 出 2 个 有 符号 16 633 ,32 位 累加 的 时 钟 数 ;第 3 列 是 2 个 有 符 导 32 
位 数 相 乘 , 并 进行 64 位 累加 的 时 钟 数 。 后 者 对 于 高 质量 音频 算法 如 MP3 是 特别 有 用 的 ， 

表 8, 1 假设 开发 者 为 某 些 任务 使 用 最 有 效 的 指令 并 且 避 免 任何 琐 后 互 刍 (postmultiply 
interlocks) 。8. 2 节 将 对 此 作 详 细 措 述 ， 

ЖЕ ЖЕ ШЕЕ ЖИРЕН 
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AGE GRÁHH) 带 32 位 累加 前 16x 16 dk (MMR) Фоа 32x 32 hik (周期 数 ) 
ARM?CARMy3) 一 12 ~ 
ARM7TDMICARMv4T) ' 4 7 

ARMITDMI(C ARMvAT} 4 1 
StrongARM(ARMvAT) 2 ori 4 от 5 
ARMSE(ARMvSTE) 1 3 

Xscale( АКМ+5ТЕ) 1 24 
ARMI136CARMv6) 0. 5 2 《结果 在 高 半 部 分 ) 


由 于 DSP 算法 对 数据 带宽 和 性 能 的 要 求 较 高 ,用 户 经 常 要 用 汇编 语言 来 实现 这 些 算 
法 ,并 且 需 要 对 寄存 器 分 配 和 指令 调度 进行 精细 控制 ,从 而 获得 最 好 的 性 能 。 本 章 无 法 覆盖 
所 有 DSP 算法 的 实现 ,所 以 把 注意 力 集中 在 一 些 能 用 到 整个 DSP 算法 的 通用 例子 和 一 般 
规则 ， . 

8.1 节 将 讨论 在 ARM 中 信号 表示 的 基本 问题 ,以 便 更 好 地 处 理 它 18. 2 忆 介 绍 在 ARM 
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ARM 嵌入 式 系统 开发 





上 实现 DSP 算法 的 一 般 规则 。 

汪 波 可 能 是 最 常用 的 信号 处 理 操作 , 它 可 以 被 用 来 进行 噪声 消除 .信号 分 析 或 者 信和 号 压 
缩 。8.3 节 和 8.4 节 将 详细 讨论 音频 滤波 ,另外 一 个 常用 的 算 水 是 离散 傅 里 叶 变 焕 
(CDFT)。 这 是 一 个 把 信号 从 时 域 转 成 频 域 ,或 从 频 域 转 成 时 域 的 变换 ，8, 5 节 将 讨 
i£ РЕТ. 


.1 表示 一 个 数字 信号 


在 处 理 数字 信号 之 前 ,首先 需要 选择 一 种 信号 的 表示 方法 。 如 倚 在 只 有 整数 类 型 的 
АКМ ERLAR- TARR? 这 是 一 个 会 影响 DSP 软件 设计 的 重要 问题 。 本 章 中 使 用 
符号 z, 和 z[ 引 表示 信号 z 在 时 刻 : 的 值 。 第 1 个 符 屿 一 般 在 等 式 和 公式 中 更 清楚 些 ; 第 
2 个 符号 用 在 编程 例子 中 , 它 看 起 来 更 加 接近 C 语言 中 的 数组 符号 ， 


8.1.1 选择 一 种 表示 方法 


在 模拟 信号 x[ 四 中 ,标号 :和 值 x 都 是 连续 的 实 变 量 。 要 把 一 个 模拟 信和 叶 转 成 数字 信 
号 ,必须 选择 有 限 个 采样 点 上 和 采样 值 x[2] 的 数字 表示 方法 。 

图 8.1 表示 一 个 正弦 波 信号 在 采样 点 0,1,2,3 等 处 被 数字 化 。 这 样 的 信号 在 音频 处 理 
中 是 很 典型 的 ,其 中 GIERE :个 音频 采样 什 ， 

例如 :在 CD 播放 器 中 ,采样 频率 是 44 100 Hz( 即 采样 44 100 次 每 秒 )。 因 此 :表示 以 
采样 周期 1/44 100 Hz =22, 7 us 为 单位 的 时 间 。 在 这 个 应 用 中 ,zx[1] 表 示 扬 声 央 在 时 间 ; 
时 对 应 的 正 负 电压 。 | 

HAR ОИН, A 2 个 问题 须 注意 


e (dE 00255 0818 — AE 1) 定 义 的 信和 号 的 最 大 波动 。 对 一 个 有 符号 信号 ,是 其 可 
能 的 最 大 物 对 值 。 对 这 个 例子 , 令 M=1 V. 


М = max( | a[t] D HEK t= 0,1,2,3 (8.1) 


ОТНЕ ,有 时 以 最 大 值 范围 的 比值 方式 给 出 。 例 如 , 百 万 分 之 100(1 
X10”) 的 精度 意味 着 每 个 тї ЛЕ (8. 2) 的 误差 范围 内 被 表示 ， 


E = Mx 0. 0001 = 0,0001 V (8.2) 


需要 找到 最 好 的 方法 来 存储 xe] БЕ Ж л О o RS E R, 
可 以 用 一 个 浮 点 数 表示 z[ 引 ,这 样 肯 定 可 以 满足 动态 范围 和 精度 的 要 求 ,并 且 也 会 很 
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x(]-sin (22/8) 





图 3.1 ШУ ТЮЕ 


T BH] C 的 浮 点 类 型 来 操作 :然而 ,大 多 数 ARM 核 硬件 不 支持 浮 点 ,所 议 这 样 的 泽 点 表 
示 会 非常 慢 ， 

一 种 快速 编码 的 较 好 选择 是 定点 表示 。 定 点 表示 使 用 一 个 被 分 数 等 比 的 整数 来 表示 
个 分 数值 。 例 如 :对 一 个 0, 000 1 V 的 最 大 误差 ,在 每 个 表示 值 间 只 需 间 是 0.000 2 V。 这 
就 可 以 用 式 (8, 3? 定 义 的 整数 XT e IE SUR. elel: 


X[:] = 最 接近 的 整数 (5 000 x 21р (8.3) 


实际 上 可 以 用 一 个 2 КЕЕ SEA OR SUE EIE SE ЖИЕН. ЖАНИ 

T.H 5 000 大 的 2 的 攻 的 最 小 值 是 27 —8 192, 105 (8. D PES XO a HT ОК 
点 表示 ; 

X[r] = RHENO [ED (8. 4) 

在 这 个 例子 中 ,可 使 用 Q13 ARTE А FE R. s] E REDE — 1 4-1 

V, XL: 18998 9—8 1927-8 192, C 语言 中 16 位 short 类 型 变量 的 值 域 可 以 覆 兽 这 个 范 


围 。 幅 值 在 一 1~ 十 1 V 之 间 变 化 的 信号 经 常 以 Q15 存储 ,因为 这 样 一 个 short 类 型 的 整数 . 


可 以 等 分 信号 的 最 大 范围 是 一 32 768~+32 767。 需 要 注意 的 是 ,十 1 V( 最 大 绝对 值 M) 没 
有 一 个 确切 的 表示 方式 ,可 以 用 十 32 767 表示 的 (1 一 2-5) 近 似 地 表示 十 1 У(М), 然而 ,在 
8. 1.2 小 闻 中 将 会 发 现 ,扩大 到 最 大 范围 表示 并 非 都 是 好 主意 ,这 样 会 增加 在 定点 表示 法 操 
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作 时 溢出 的 可 能 性 。 

在 定点 表示 中 ,用 整数 表示 每 个 信号 值 ,并 为 整个 信号 使 用 同样 的 比例 刻度 。 这 与 一 个 
浮 点 表示 法 不 同一 一 每 个 信号 值 z[ 妇 的 浮 点 表示 都 有 各 自 依 赖 于 的 比例 刻度 , 即 指数 。 

一 个 常见 的 错误 是 ,认为 浮 点 比 定点 精确 。 对 于 同样 的 比特 数 ,定点 表示 更 精确 ;而 浮 
点 表示 则 以 较 低 的 绝对 精度 为 代价 ,提供 了 更 大 的 动态 范围 。 例 如 :如 果 使 用 32 位 整数 保 
持 一 个 定点 值 来 比例 划分 全 部 范围 ( 满 量 程 ) ,那么 一 个 表示 值 的 最 大 误差 是 2 。 然 而 , 单 
精度 32 位 浮 点 值 将 带 来 2 “的 相对 误差 。 单 精度 浮 点 的 尾数 是 24 位 ,尾数 开始 的 1 不 被 
存储 ,所 以 实际 上 只 用 了 存储 的 23 位 。 对 于 在 最 大 数 附近 的 值 , 定 点 表示 精确 了 2 = 
256 倍 。 当 最 大 误差 比 相对 精度 更 重要 时 ,8 位 的 浮 点 指数 很 少 被 使 用 。 

总 之 , 当 信号 范围 有 明确 的 边界 ,而 最 大 误差 又 是 重要 因素 时 ,定点 表示 是 最 好 的 。 当 
信号 没有 明确 的 边界 ,并 且 需 要 较 大 的 动态 范围 时 , 浮 点 表示 比较 好 。 还 可 以 使 用 后 面 介绍 
的 其 它 表示 法 ,它们 比 定点 表示 能 提供 更 大 的 动态 范围 ,也 比 浮 点 表示 实现 起 来 更 有 效 。 


opino SJedoleAed UelSAS WAY 


如 果 信 号 的 最 大 值 是 不 知道 的 ,但 大 部 分 采样 值 都 分 布 在 一 个 确定 的 范围 内 ,在 这 种 情 
况 下 , 则 可 以 使 用 一 种 基于 一 般 范围 的 定点 表示 ,把 任何 超出 范围 的 采样 值 ,饱和 或 消减 到 
正常 范围 内 最 接近 的 采样 值 。 这 种 方法 以 某 些 非 常 大 的 信号 失真 为 代价 ,获得 较 高 的 精度 。 
有 关 饱 和 运算 的 内 容 可 以 参考 7.7 节 。 


252 当 小 采样 值 接 近 大 采样 值 时 ,它们 通常 是 不 重要 的 。 在 这 种 情况 下 ,可 以 把 信号 分 成 采 
Fu И ,依照 信号 在 每 块 或 帧 中 的 不 同 强度 ,使 用 不 同 的 定点 比例 刻度 。 

这 和 浮 点 表示 有 些 类 似 ,不 同 的 是 ,在 块 浮 点 表示 中 ,每 一 帧 内 的 所 有 采样 值 具有 相同 
的 指数 ; 而 在 浮 点 表示 中 ,每 个 采样 值 都 有 自己 的 指数 。 这 样 ,就 可 以 使 用 有 效 的 定点 操作 


来 操作 同一 帧 内 的 采样 值 ,而 仅仅 在 帧 间 数 值 比较 时 ,需要 一 定 代价 的 指数 相关 操作 。 


如 果 信号 zLt] 有 很 大 的 动态 范围 ,并 假设 乘法 运算 远 比 加 法 运算 频繁 ,那么 可 以 使 用 
以 2 为 底 的 对 数 表示 方法 。 对 于 这 种 方式 ,考虑 相关 信号 уп]: 


yLt] = lb (z[z]) (8.5) 


用 定点 格式 表示 yt]. 
用 y[a]=y[b]+ [c] 
#% | Жаага 0.0) 





А Уа) = у[%]+1Ь (14259-2 | 


替换 х[а]=х[&]ххт[с] un 
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在 第 2 种 情况 下 , 令 y[cj 科 >L0J。 用 查 表 和 (或 ) 插 值 的 方法 计算 函数 f(x) = 
log2 (1 十 2*)。 参 考 7.5 节 中 有 关 log2 z 和 2° 的 有 效 实现 。 


8.1.2 操作 以 定点 格式 存储 的 值 


设 现在 选择 Qk 定点 表示 信号 z[t]。 换 句 话 说 ,有 一 个 整数 XX[] 的 数组 ,如 : 
Х[{] = 最 接近 (2*:z[1]) 的 整数 (8. 8) 


同样 ,如 果 用 二 进 制 符号 来 表示 整数 Xe] ,并 在 上 位 和 一 1 位 之 间 插 和 人 一 个 二 进 制 小 
数 点 ,那么 就 有 z[ 妇 的 值 。 例 如 :在 图 8. 2 中 ,Q15 的 定点 值 0x6000 表示 二 进 制 数 0. 11 ,或 
者 是 十 进 制 数 3/4 王 0. 75。 


也 — Eust us ulio sl s] s]a] Jio] 


图 8.2 3/40 015 形式 定点 表示 法 


后 续 章节 包含 适用 于 定点 信号 处 理 的 一 些 基 本 操作 ,如 :加 法 ,减法 、 乘 法、 除法 和 平方 
根 。 以 下 是 适用 于 所 有 定点 操作 的 几 个 概念 : 


OFERA 当 使 用 右 移 来 做 与 2 的 宪 的 除法 时 , 移 位 会 入 应 该 向 一 oo 方向 ,而 不 使 
人 到 最 接近 的 整数 。 更 确切 的 表达 是 ,用 y=(z 十 (1 << shift 一 1))) >> shift А, 
这 样 就 向 上 使 去 0. 5, 合 人 到 最 接近 的 整数 。 有 效 的 具体 实现 请 参考 7. 3. 3 Л. 

ORARAA ”对 于 无 符号 的 除法 ,使 用 у= (zx 十 (d >> 1))/d, 而 不 用 y=z/d, Ж 
得 到 一 个 会 人 的 结果 。 

e #2 (headroom) ”定点 表示 法 的 净空 间 是 指 ,可 以 在 整数 中 被 存储 的 最 大 数值 和 
可 能 出 现 的 最 大 数值 的 比值 。 例 如 :假如 使 用 16 位 整数 存储 一 个 Q13 形式 的 音频 
信号 ,该 信号 的 范围 为 一 1 一 十 1, 那 么 就 有 净空 间 4 倍 或 2 位 。 此 时 ,也 可 以 对 采样 





点 作 2 次 倍 乘 而 不 用 担心 会 溢出 。 
e QUEM WR XU z[] 的 一 个 Qn 表示 ,那么 
X[t] << k E rlt] 的 一 个 Q(n+ b) 形式 (8.9) 
X[t] > kË x [0] 的 一 个 QUn — k) 形式 (8. 10) 


在 下 面 的 章节 中 ,对 于 确定 的 信号 [e] IM у], M XL]. Cr] YCO4 8836 ЕП 
的 Qn,Qm,Qd 定点 形式 。 
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8.1.3 定点 信号 的 加 法 和 减法 


通常 情况 是 把 信号 | 
ylz] = 工本 十 < (8. 11) 
ЖОЕ SUR XX S ДЕНИ: 
Үү] = 21) = 27 Cale] £] = 2*7 xz] + 2^7C[1] (8, 12) 
RAMEK C | 
ҮГ) = (XI£] << (d —n)) (СГА) << (d — т)); 
wš ТАЛА УВА. Й, ik E rle] 
жс Qd 形式 ,然后 加 起 来 给 Y Ct]. 


在 编译 时 ,已 经 知道 4,n Am 的 值 ,所 以 要 决定 移 位 方向 或 者 是 否 移 位 是 没有 问题 的 。 
实际 上 通常 令 n=mr 二 d, 因 此 整数 加 法 给 出 一 个 定点 加 ; 


Y[:]2 X[r] 十 CC 
ME d—mXxd—n, n tlg ARM 的 桶 形 移 位 器 来 完成 这 个 操作 ; 
ъ= ХЕ) + 0С] << (d-m); /+d==n 的 情 搞 x/ 
ҮСЕ] = СГ] + Ct] << td-n)); /xd==n 的 情况 x/ 
但 必须 注意 ,上 面 的 等 式 只 有 在 移 位 值 和 结果 不 溢出 的 情况 下 才 有 效 。 讽 如 ;如 果 Y[ 划 二 
Хї1+С г], Ү[ 02596 EL XT 各 和 Cj 动态 范围 的 和 , 则 很 容易 溢出 整数 的 范围 。 
' 一 般 有 +4 种 防止 溢出 的 方法 ， 


e 确保 xL: m CL9 都 有 一 他 的 净空 间 。 换 名 话说 ,每 个 值 只 用 了 其 整数 的 一 半 范 围 ， 
这 样 在 加 法 中 就 不 会 溢出 。 

e 对 于 了 ,使 用 比 与 和 C 更 大 的 值 域 范围 的 类 型 。 例 如 :如 果 XCr]fI CE 使 用 16 fus 
数 类 型 存储 ,那么 Y[ 妇 可 以 用 一 个 32 位 整数 类 型 ,这 样 就 可 以 保证 不 会 溢出 。 实 际 
上 ;这样 YL: Ж# 15 位 的 净空 间 ,所 以 可 以 对 Yen ER & 16 位 值 而 不 会 发 生 溢出 ， 

e 对 y[] 使 用 一 个 较 小 的 Q 表示 法 。 例 如 :如 果 d= 二 n 一 1=m 一 1, 那 么 运算 变 为 ， 


YIA= {XE+ X[t71D >> 1; 


因为 移 位 在 加 法 之 后 ,这 个 操作 需要 2 个 周期 ,然而 ,运算 结果 不 会 溢出 。 
e ИЛИШ, 如果 X[] 十 C[ 引 的 结果 超出 了 存储 Y[1] 的 整数 的 范围 ,那么 把 这 个 什 
缩减 为 在 这 个 范围 内 的 最 接近 的 可 能 值 ( 即 愧 和 运算)。7.? 节 论 述 了 如 何 有 效 地 
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实现 饱和 运算 ， 
8.1.4 定点 信号 的 乘法 
通常 情况 是 把 信号 表达 式 
sle] = xL £]Jel t] (8. 13) 
转换 成 定点 格式 , 即 近似 地 ， 
Y] = 249[ = 22Cx[t]el e D = 2” [CL (8, 14) 


或 者 是 整数 C. 
Ү[ї]=(Х[1ї]* Cep >> (n+m— d); 
这 里 把 一 个 负 的 左 称 值 解释 为 右 称 伟人 。XT[D]C[O 的 结果 是 一 个 YHJ Q(n 十 mm) 表 
示 ， 移 位 后 转换 成 Qd 形式 。 有 2 种 通常 的 应 用 : 
e 一 系列 乘法 的 累加 。 在 这 种 情况 下 ,假设 d= 十 ;使 用 一 个 比 六 [和 CID 宽 的 整 
ЖЖ YL. ЗЕ ЕЕ ИЕ. 


ҮЕ +]; Иж +/ 
yit] += х7] +С], А 


e 信号 YL]E439 XR EIE BURGI AGRIS. EAM T =n MAE 
算是 ， 
Y[t]=(X[t]* Ср >> mi 
对 于 音频 DSP 应 用 ,16X16 {3 ТЕ НН, — RE n Amn 的 值 是 R15, Ж ИШЕ 
和 减法 时 ,要 检查 每 个 运算 UI A S. 
【 例 8.1】 设 X[ 门 是 音频 信号 clii 位 有 符 导 表示 。 假 设 要 把 信号 的 能 最 减少 
半 , 这 样 必须 用 1/Y2 乘 以 每 个 采样 值 ,所 以 dC] 275 —0, 707 106 78+. 


既然 用 16 位 表示 X[1],16 位 乘法 将 足够 。 最 大 的 2 的 指数 是 15, 这 个 指数 可 乘 以 cL] 


Н ЕЖЕ 16 位 整数 。 所 以 , 令 п=4.т=15,С[]=2' /‹/) —23 710 一 0x5A82, 因 此 
可 以 使 用 整数 操作 来 比例 划分 


X[t]=(X[t] ж Ox5AB2) >> 15 


8 数字 信号 处 理 





Dutsseoou1g IDuDIS OBG 8 


255 








Әр!пєу SJecoleAegqd WAS WHY 


256 





ARM #А, Ж#Н 


8.1.5 定 感 信号 的 除法 


通常 情况 是 把 信号 表达 式 
уа} = z] (8, 15) 
转换 成 定点 格式 , 即 近 似 地 ， 
Yu] = 250] = 145 caen ДЫ (8.16) 
ЖЖЖ С. 
Y[t]=X[t] << (d— n+m)/C[tJ; 
同样 是 一 个 负 揭 左 移 表 示 为 右 移 。 
必须 注意 : EA AIRE E. 
在 典型 的 应 用 中 ,n=m, 那 么 上 面 的 运算 得 到 一 个 精度 在 二 进 制 小 数 d 位 的 Qd 结果 ， 
Ye at << ФАС]: | 
请 参考 7. 3. 3 小 节 关于 定点 除法 的 有 效 实现 。 


8.1.6 定点 信号 的 平方 要 


通常 情况 是 把 信号 表达 式 
yLt] =v ale] (8.17) 
转换 成 定点 格式 , 即 近似 地 ; 


Yit] = 2*y[1] = 21 Vz [7] = /?®_"Х[т (8, 18) 
或 者 是 整数 C. I 


Y[t]=isqrt(X[t]<< (2* d—0)); 
IRE isqrt 得 到 整数 平方 根 的 最 接近 整数 。 请 参考 7, 4 节 有 关 平 方 根 的 有 效 实现 。 


8.1.7 小 结 :数字 信号 的 表示 


要 选择 一 个 信号 值 的 表示 ,可 以 使 用 以 下 规则 ， 
e 在 原型 算法 中 使 用 浮 点 表达 方式 对 速度 要 求 苛刻 的 应 用 ,不 要 使 用 浮 点 表示 。 大 
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$2 ARM 实现 不 包含 硬件 泽 点 支持 。 
e 在 对 速度 要 求 苛刻 而 动态 范围 要 求 适中 的 应 用 中 ,使 用 定点 表示 。ARM 核对 8, 
16,32 位 定点 DSP 提供 了 很 好 的 支持 ， 
e 对 速度 和 动态 范围 都 有 较 高 要 求 的 应 用 ,使 用 块 泽 点 或 对 数 表示 法 ， 
表 8.2 总 结 了 在 定点 算法 中 如 和 何 实现 一 些 标准 运算 。 这 里 假设 有 3 种 入 号 т]. c. 
xd ЕПЗ Qu От, Qa 形式 的 表示 XL CD YU. fw. 
Xle] = Z'z[£] CL] = 27e [6 У = 22y[t] (8.19) 
是 最 接近 的 整数 ， 
为 了 使 表格 更 简明 ,这 里 使 用 符号 <<< "表示 一 个 依据 移 位 数 符号 , 既 可 左 称 , 也 可 右 
移 的 运算 符 。 通 常 ， 


x «eq 817 

X << 8 ШЖ so 

x >> {- в) ШЖ зо fE AW E A 
(x + round) >> ( — 8) ШЖ 50 ES A 
round , = (1 ««(-1- 5) 如 果 0.5 ES 


(1 <e(—1—-5)y- 1 us 0.5 F 
3858.2 标准 定点 运算 小 结 


Atay SFr x s kR 

ylt]= <UtJ Y[t]=X[t] <<< (d— m, 

yt] x [0d t] Y[r]=(Xt] «<< G0) + G[1] <<< (43m; 
yLt] m x[t]— [t] Y[t]= (X[t] <<< (d— m2 ССГ] «ee (d ту); 
y[t]=x[:] ж d Y[tJ=(X(t] x (1D «<< (d п-т): 

yG)- xd] YLc])- Gt <<< (4—п+ш))/С[], 

УГ] = sqart(x[ t] Y[1] 2 isqrtC X[ 0] <<< (2 ж d—n)); 


注意 ; 必须 经 常 抢 查 中 间 咎 果 和 榆 出 值 的 精度 和 动态 范围 ,确保 没有 滔 出 或 不 可 接受 的 精度 丢失 。 
这 些 考虑 决 岩 了 表示 法 和 整数 的 大 小 。 

这 些 等 式 是 最 一般 的 形式 。 实 际 上 ,对 于 加 法 和 减法 ,通常 令 d—n— m. ЖЕЙ ЕЛЕ 
常 令 d 二 n 十 m 或 4 二 xn。 由 于 在 编译 时 已 经 知道 din 各 ,因此 可 以 消除 0 移 位 。 
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8.2 #3 ARM 的 DSP 介绍 


ЖА ЖЖЖ E ARM 体系 结构 的 特点 ,这 对 于 编写 DSP 应 用 非常 重要 ， 然 后 将 依次 
ЖЮ А ЕДШ АКМ 内 核 的 实现 ,重点 突出 内 核对 数字 信号 处 理 的 优点 和 弱点 。 

ARM 核 不 是 专门 用 于 DSP 的 , 它 没有 单一 的 指令 来 实现 乘 果 加 和 并 行 数据 访问 。 但 
是 ,通过 重复 使 用 装载 的 数据 ,可 以 取得 很 好 的 DSP 性 能 。 关 键 的 思想 是 使 用 块 算法 。 这 
个 算法 一 次 可 计算 多 个 结果 ,并且 相对 于 计算 单个 结果 ,这 只 需 较 小 的 存储 器 带宽 ,并 可 改 
FEARED HE, 

对 于 精度 和 饱和 ,ARM 也 不 同 于 标准 的 DSP。 通 常 ,ARM 不 提供 自动 饱和 运算 ,各 种 
运算 的 愧 和 通常 种 要 额外 的 时 钟 周期 。7. 7 节 讨 论 了 ARM 上 的 人 和 操作 。 另 一 方面 ， 
ARM 很 好 地 支持 扩展 精度 的 32 {Ж 32 位 得 到 64 位 结果 的 操作 。 这 种 操作 对 CD 音质 
的 音频 应 用 特别 重要 ,这些 应 用 需要 超过 16 位 的 中 间 精 度 (intermediate precision), 

从 ARM9 开始 ,ARM 实现 使 用 了 针对 装载 和 屁 法 的 多 级 执行 流水 线 , 这 项 技术 带 来 了 
潜在 的 处 理 器 互 锁 。 如 果 装 载 一 个 数据 ,接着 在 后 面 两 条 指令 中 的 任意 一 条 使 用 这 个 数据 ， 
那么 处 理 器 可 能 停 下 来 用 个 周期 ,以 等 待 被 装载 的 数据 。 同 样 ,如果 在 乘法 后 面 的 指令 中 使 
用 先 法 的 结果 ,那么 也 可 能 引入 等 待 周期。 优化 代码 ,以 避免 这 些 等 待 ,是 非常 重要 的 。 关 
于 指令 优化 请 参考 6. 3 节 的 讨论 。 


A # АВМ Е DSP CHER ES 

e 由 于 饱和 操作 需要 额外 的 CPU 周期 ,在 设计 DSP 算法 时 要 避免 饱和 操作 。 可 以 使 
用 扩展 精度 的 运算 或 附加 的 比例 尺度 变换 替代 饱和 操作 。 

e 设计 DSP 算法 时 ,要 最 小 化 装载 和 存储 次 数 。 一 旦 装载 了 一 个 数据 项 ,就 要 尽 可 能 
在 多 个 运算 中 使 用 这 个 数据 项 。 可 以 一 次 计算 多 个 输出 结果 ,或 是 把 多 个 运算 并 秆 
在 一 起 。 例 如 ,可 以 同时 执行 一 个 点 乘 和 信和 号 尺度 变换 ,而 只 装载 数据 一 次 。 

e 使 用 ARM 汇编 ,以 避免 处 理 器 互 锁 。 装 载 和 乘法 指令 的 结果 在 共 后 的 指令 中 常常 
还 没有 就 绪 ， 必 须 增 加 等 待 周 期 ,有 时 需要 等 待 好 几 个 周期 ,才能 得 到 结果 。 详 细 
的 指令 周期 定时 可 和 参考 附录 D. 

© ARM 有 14 个 通用 寄存 器 :r0~-r12 A rlt, H DSP 算法 时 ,要 使 内 部 循环 体 使 用 
14 个 或 更 少 的 寄存 器 。 


在 后 续 章 节 中 ,将 依次 考虑 各 个 标准 的 ARM 核 ,并 在 每 个 ARM 核 上 实现 一 个 点 冬 
《把 积 ) 的 例子 。 点 乘 是 一 个 最 简单 的 DSP 运算 ,将 强调 在 不 同 ARM 核 上 实现 的 差异 性 ， 
从 两 个 信号 z, T c, 的 和 个 采样 值 的 点 乘 , 得 到 一 个 相关 的 值 a; 
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N-1 
а= Jier, (8. 20) 
=!) 


ЕИ C 接口 原型 是 ， 


int dot product(sample x x,coefficient * c,unsigned int N); 

这 里 

€ sample 是 一 个 表示 16 位 音频 采样 的 数据 类 型 ,通常 使 用 short 类 型 ， 
€ coefficient 是 一 个 表示 16 位 系数 的 数据 类 型 ,通常 使 用 short 类 型 ， 
e LJA e i 是 长 度 为 N 的 2 个 数组 (数据 和 系数 ); 

e 函数 返回 32 位 整数 的 累加 点 乘 结果 a, 


8.2.1 ARM7TDMI 的 DSP 


ARM7TDMI 有 一 个 单 周期 32 u 8 位 的 提前 终止 乘法 阵列 。16 位 乘 以 16 位 得 到 


32 位 的 计算 需要 4 个 周期 对 0 等 待 的 内 存 或 cache 指令 中 ,装载 指令 需要 3 个 周期 , 存 情 
指令 需要 2 个 周期 。ARM7TDMI 指令 的 时 钟 周 期 数 可 参考 附录 了 的 D.2 节 ， 


zh 


i$ ARMTTDMI 上 DSP {ЧЕ ИЕ ЕЛЕЕ 
e 装载 指令 执行 较 慢 CEST ESESTIAN. Si Ur ҤЕ ВЕН 
寄存 器 装载 和 存储 指令 LDM 和 STM。 多 寄存 器 装 裁 和 存储 指令 在 第 一 个 字 之 后 ， 
对 每 个 附加 字 的 传送 只 需要 1 个 周期 ,这 也 意味 着 在 32 位 字 中 存储 16 位 数据 值 会 
更 加 有 效 。 
e 习 法 指令 根据 乘积 Rs 中 的 第 2 个 操作 数 通常 会 提前 终止 。 为 了 可 预测 的 性 能 ,可 
以 使 用 第 2 个 操作 数 来 表示 固定 系数 或 倍数 。 
e julia Ruth 1 个 周期 ,有 时 把 MLA 指令 拆 分 成 独立 的 MUI fI ADD 指令 会 很 
有 用 ,接着 可 以 使 用 桶 形 移 位 和 ADD KRITERE RHI. 
e 可 以 使 用 带 移 位 的 运算 指令 来 渴 快 地 实现 与 固定 系数 的 乘法 。 例 如 ;240z= (x << 
8)—CGr << 4)。 对 于 形 如 土 2* 土 2* 士 2: 的 固定 系数 , 带 移 位 的 ADD 和 SUB 可 以 比 
MLA 更 快 地 实现 乘法 运算 。 | 


[18.2] Ет ARM7TDMI 的 16 位 点 乘 的 优化 。 
每 个 MLA 需要 4 个 周期 。 这 里 把 16 位 输 大 采样 值 存放 在 32 位 的 字 中 , 这样 就 可 以 





使 用 LDM 指令 高 效 地 装载 。 
х RN 0 ; 输 信 数组 x[ ] 
с RN 1 :输入 数组 c[] 


N RE 2 ;采样 点 的 数目 (5 的 倍数 ) 





eo 
J 
© 
Q 
cn 
Q 
m 
o 
y 
Q 
Ö 
(D 
“7 
z] 
5 
© 
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асс RN 3 :累加 器 

х0 RN 4 ;数组 x[ ] 的 元 素 
х_1 RN 5 

х_2 RN 6 

x 3 RN 7 

x 4 RN 8 . 

c RN 9 GR cC ]89 2 Ë 
c1 RN 10 

c. 2 RN 11 

c. 3 RN 12 

c 4 RN 14 


pint dot lébyl6 arm7m(int xx, int * c, unsigned N) 
dot l6byl6 arm"7m 


STMFD spl, irá- ril, lr] 
MOV acc, #0 
loop 7m ;累加 5 个 乘积 
LDMIA xl, (x 0, хі, x 2, x 3, x 4] 
LOHIA cl, fe 0, c1, c_2, 63, c 4! 
MLA асс, х_б, c б, acc 
МГА асс, x 1, c 1, acc 
MLA acc, x 2, c 2, acc 
MLA асс, X 3, c_3, acc 
MLA асс, x 4, c 4, acc 
SUBS E, N, #5 
BGT loop "m 
MOV rü, асс 
LDMFD spl, (rá- rli, po) 


这 段 代码 假设 采样 点 的 数目 六 是 5 的 倍数 ,因此 可 以 使 用 5 个 字 的 多 数据 装载 来 增加 
数据 的 带宽 ,平均 每 次 装载 的 开销 是 7/5=1.4 个 周期 。 如 果 使 用 LDR 或 LDRSH, 则 每 次 
装载 需要 3 个 周期 。 内 循环 最 多 需要 7 十 ?十 5X4 十 1 十 3 二 38 个 周期 来 处 理 包 会 5 个 结果 
的 每 个 块 。 这 给 出 了 ARM7TDMI 的 一 个 DSP 性 能 评价 :每 个 tap{ 抽 头 ) 的 16 fr im e 
平均 需要 38/5=7, 6 个 周期 。 如 果 要 计算 多 数据 乘积 ,8, 3 节 给 出 的 块 滤波 算法 会 有 更 好 
的 性 能 ， 


8.2.2 ARM9TDMI 的 DSP 


ARM9TDMI 和 ARM7TDMI 一 样 , 也 有 一 个 单 周期 32 fir DI 8 位 的 乘法 阵列 。 然 
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而 ,装载 和 存储 操作 比 ARM? TDMI 快 了 很 多 ,如 果 在 load 指令 之 后 的 2 个 时 钟 周期 不 使 
用 装载 值 ,那么 其 只 用 了 1 个 时 钟 周期 。ARM9TDMI 指令 的 时 钟 周期 数 可 参考 附录 DD 的 


D.3 节 。 


P 


i$ ARM?9TDMI E DSP fC8 ois EE E P 

名 编写 代码 时 ,只 要 避免 在 load 指令 后 的 2 个 周期 内 使 用 装载 值 ,装载 指令 就 是 非常 
快 的 ， 使 用 多 数据 装载 并 没有 什么 好 处 ,应 该 把 16 位 数据 存储 在 16 位 short 2838 
的 数组 中 ,使 用 LDRSH 指令 装载 数据 。 

e 乘法 指令 根据 点 乘 Rs 中 第 2 个 操作 数 的 值 通 常会 提前 终止 。 为 了 可 预测 的 性 能 ， 
可 以 使 用 第 2 个 操作 数 来 表示 固定 系数 或 倍数 。 

e 磁 法 和 乘 暴 加 的 速度 相同 ,所 以 要 尽量 使 用 MLA 指令 ,而 不 要 拆 分 乘法 和 加 法 。 

e 可 以 使 用 带 移 位 的 运算 指令 来 更 快 地 实现 与 固定 系数 的 飞 法 。 例 如 ,240z 二 {zx << 
8)—(x << 4), XETJEIB32^ 2^2 的 固定 系数 , 带 称 位 的 ADD RI SUB 可 以 比 
MLA НЯ s И. 


[58.3] 显示 ARM9TDMI 的 16 fir s ER EAE. 
每 个 MLA 最 坏 情况 了 只 需要 4 个 周期 ,这 里 把 16 位 输入 采样 值 存放 在 16 位 short 类 


Agah, MERER LDM 没有 比 使 用 LDRSH 更 好 ,这 里 使 用 EDRSH, 以 减 小 内 存 数据 


的 大 小 。 
x RN 0 + 输 人 数组 х) 
c EN 1 1 输入 数组 cl] 
N RN 2 Ж КЮ H Са 894838) 
асс RN 3 ;累加 器 
x0 RN 4 ;数组 对] 的 元 素 
x1 ВК 5 r 
c0 RN 9 ;数组 < [] 的 元 素 


c1 RN 10 


rint dot 16byl6 arm9m(short * x, short * c, unsigned N) 
dot 16byl6 arm9üm 


STHED spl, {r4 - r5, r8 — r10, lr} 
MOV acc, #0 

LDRSH x 0, [x], #2 

LDRSH c 0. Ге], #2 


loop 9m p 4 个 乘积 
SUBS N, N, #4 
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opine sJedojeAedg LLISISAS Му 


ARM RAR RAHNA 











LDRSH x 1, [x], #2 
LDRSH c 1, [c]. #2 

MLA acc, х0, c D, acc 
LDRSH x 0. [x], #2 
LDRSH е_0, [c]. #2 

МА acc, x l.c 1, acc 
LDRSH x 1, [х], #2 
LDRSH — ел, fe], #2 

MLA acc, х0, c0, acc 
LDRGISH x 0, [x], #2 
LDRGTSH c D, [c]. #2 

МА acc, x l, c 1, acc 
BGT loop 9m 

MOV rÜ. acc 

LDMFD spl, (rd- r5, r8 — z10, pe) 


这 里 假设 采样 的 数目 是 4 的 倍数 ,因此 可 以 展开 循环 4 次 来 改善 性 能 。 编 写 代 码 时 ,在 
装载 和 使 用 装载 值 之 间 有 4 条 指令 。 这 里 使 用 了 6.3.1 小 节 的 预 装载 方法 。 


e 装载 使 用 双 缓 冲 , 在 装载 GRUB x o REB. 

° 在 内 循环 开始 前 ,装载 初始 值 Xo 和 c. A EXE AER, 

e 通常 在 使 用 一 对 数据 时 ,装载 下 一 对 数据 ,因此 必须 避免 最 后 一 对 的 装载 ;否则 会 超 
出 数组 的 范围 。 可 以 使 用 一 个 循环 计数 器 ,在 最 后 一 次 循环 时 ,计数 器 减 到 0。 只 
有 在 N>>0 的 条 件 下 , 才 做 下 一 次 装 裁 。 


内 循环 中 每 个 循环 需要 28 个 周期 , 即 每 个 tap( 抽 头 ) 平 均 需 要 28/4— 7 个 周期 更 有 
效 的 块 滤波 实现 ,可 参考 8.3 节 ， 


8.2.3 StrongARM 的 DSP 


StrongARM HAR SA ~ 1 有 一 个 单 周期 有 符号 32 EXE DA 12 位 的 提前 终止 滋 法 阵 
列 。 如 果 想 要 在 乘法 指令 的 后 一 条 指令 中 使 用 乘法 结果 或 启动 一 个 新 的 乘法 ,那么 内 核 会 
有 1 个 周期 的 等 待 。 除 了 有 符 导 字 节 和 半 字 装载 需要 2 个 周期 外 ,load 指令 只 需要 1 个 周 
期 ,但 装载 值 要 延迟 1 个 周期 才 可 使 用 。 详 细 的 StrongARM 指令 的 周期 定时 ,可 参考 附录 
D 的 D,4 节 ， 


ЈА # StrongARM E DSP HERRBES 
e 应 避免 有 符号 字 节 和 半 字 装载 。 调整 代码 ,以 避免 在 装载 指令 后 的 -- 个 周期 内 使 用 


UR 
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装载 值 。 使 用 多 数据 装载 没有 好 处 ， 

e 乘法 指令 根据 在 点 乘 Rs 中 第 2 个 操作 数 的 值 会 提前 终止 。 为 了 可 预测 的 性 能 ,可 
以 使 用 第 2 个 操作 数 来 表示 固定 系数 或 倍数 。 

e 飞 法 和 乘 累 加 速度 相同 ,所 以 应 尽量 使 用 MLA 2 ,而 不 要 拆 分 乘法 和 加 法 。 


С 8.4] 显示 一 个 16 位 点 乘 。 
由 于 装载 一 个 有 符号 16 位 数 需要 2 个 周期 ,对 StrongARM 来 说 ,使 用 32 位 数 更 有 有 效 


。 为 了 调整 StrongARM 代码 ,一 种 方法 就 是 交叉 使 用 装载 和 乘法 。 


х RN 0 ;输入 数组 过] 

с RN 1 ;输入 数组 cL1 

N RN 2 ;采样 点 的 数目 (4 的 倍数 ) 
acc RN 3 S 

х 0 RE 4 ;数组 х2: 

x1 RN 5 

c. 0 RN 9 ;数组 cl 的 元 素 

c1 RN 10 


{їп dot l6byl6 SAl(int * x, int x c, unsigned К) 
dot, l&by16 SAl 


STMFD apl, {r4- r5, 19-110, lr} 

KOV acc, {0 

LDR x 0, [x], #4 

LDR c 0, [c], #4 
loop sa SUN 4 ER 

SUBS N. N, #4 

LDR х_1,[х], #4 

LDR c 1, [c], #4 

MLA acc, x 0, c O, acc 

LDR x 0, [x], #4 

LDR c 0, [c], #4 

MLA acc, x 1, & 1l, acc 

LDR x 1, [x], #4 

LDR c1, [c], #4 

МА асс, x D, c 0, acc 

LDRGT x 0. [x], #4 

LDRGT c D, [e], #4 


MLA acc, x 1, e 1, acc 
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BGT loop sa 
MOV | ї0. acc 





这 里 假设 采样 数 N 是 4 的 倍数 ,所 以 在 每 个 循环 中 处 理 4 个 采样 数据 。 对 于 16 位 系 
ARRU. AKRA 2 个 周期 。 编 写 代码 时 已 经 优化 ,如 免 了 所 有 的 装载 和 乘法 的 
Ҥй. ИЙИЛЕ 4 4 A ЖЕ RC GEHE 19 个 周期 ,所 以 每 个 тарси зо З 19/4— 
4.75 个 周期 。 


8,2.4 ARM9E 的 DSP 


ARMIE 核 有 一 个 非常 快 的 流水 线 滋 法 器 阵列 ,只 用 1 个 发 射 周期 就 可 以 实现 32 位 与 
16 位 的 到 法 ;但 适 算 结果 在 下 个 周期 还 不 能 使 用 ,除非 是 在 乘 累加 操作 中 的 累加 器 使 用 该 
结果 。 装 载 和 存 情操 作 与 ARM9TDMI 具有 同样 的 速度 。 有 关 ARME 指令 的 周期 定时 ， 
TASR DADAH, 

H^ T ВУЗЕ ЕНЕ ARMSTE ЖЖ ИНГ ЕСЕ ЮКО, XT 
16 位 乘 以 16 位 操作 ,使 用 SMULxy 和 SMLAxy。 关 于 所 有 的 秉 法 指令 列表 ,可 参见 附 
ФА, 


A d ARMIE Е DSP ft 88 50 438 # E 
€ ARMvS TE 体系 结构 的 乘法 操作 ,能够 把 32 位 字 拆 分 为 16 位 的 半 字 并 相 乘 。 为 了 
有 最 高 的 装载 带宽 ,上 应 使 用 字 装 载 指令 来 装载 打包 的 16 位 数据 项 。 同 
ARM9TDMI 一 样 ,应 调整 代码 ,以 必 免 装载 互 锁 。 
乘法 操作 没有 提前 终止 ,因此 对 于 32 位 整数 乘法 ,应 该 使 用 MUL 和 MLA; 对 于 16 
位 值 , 使 用 SMULxy 和 SMLAxy, 
e 乘法 和 乘 累 加 速度 相同 ,所 以 应 尽量 使 用 SMLAxy 指令 ,而 不 要 拆 分 乘法 和 加 法 。 


[18.5] 显示 ARMIE HAREE, 

这 里 假设 ARM 被 配置 成 小 端 (little - endian 存储 系统 .如 果 ARM 被 配置 成 大 端 
(big - endian) 存 储 系 统 , 那 么 需要 交换 BRIT ds B RTL DL. 11 那样 定义 宏 来 自动 
完成 这 件 事 。 这 里 使 用 命名 规范 x 10 表示 寄存 器 的 高 16 位 存放 z. . 16 位 存放 z, 


opine) siodojeA^ed WSISAS WHY 


x RN O ЛЖ х] 

с RN 1 ARA cL] 

N RN 2 ! 采 样 点 的 数 日 (8 054638) 
acc RN 3 Ж 


х_10 RH 4 ; 圭 装 数组 站] 的 元 素 


х_32 RN 5 
c 10 RN 9 ;封装 数组 c[ ] 的 元 素 
с_32 RN 10 


iint dot 165у16 armSe(short * x, short s c, unsigned N} 


dot l6byil6 arm9e 
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со 
J 
Q 
- 
Q 
ep 
© 
= 
a 
кө, 
Q 
名 
B= 
© 


STMFD spl, (irá - z5, r9- r10, 1г} 
MOV acc, #0 
LDR x 10,[x], #4 
LDR c10, [c], #4 
loop Se ; И 8 TRE 
SUBS N, N, #9 
LIR x 32, [x], #4 
SMLABB acc, x 10, c 10, acc 
LDR c, 32, [c], #4 
SMLATT acc, x 10, c, 10, асс 
LDR x lü. [x], #4 
SHLABB асс, x 32, c 32, асс 
LDR c 10, [c], #4 
БМГАТТ acc, x 32, c 32, асс 
LDR x 32, [x], #4 
SMLABB acc, x 10, c 10, acc 
LDR c_32, [с], #4 265 
SMLATT acc, x 10, c 10, acc 
LDRGT x 10, [x], #4 
SMLABB acc, x 12, c 32, acc 
LDRGT c. 10, [c], #4 
SMLATT асс, x 32, с 32, асс 
BGT loop де 
MOV үй, acc 
LDMFD gpl, frå- r5, r9 - x10, pc] 











这 里 假设 N 是 8 的 倍数 ,循环 展开 8 次 。 每 次 装载 指令 读 取 2 个 16 位 值 ,这 样 可 以 得 
到 较 高 的 存 鳍 回访 问 带 宽 。 内 部 循环 需要 20 个 周期 来 标 加 8 个 乘积 ,每 个 tap( 抽 类) 平均 
需要 20/8=2.5 个 周期 。 后 述 的 抉 滤波 算法 会 给 出 更 有 效 的 实现 方法 。 
8.2.5 ARMIOE 的 DSP 


和 ARMIE 一 样 ,ARMI10E 也 是 ARMvSTE 体系 结构 的 实现 ， 除 了 16 {у E UE 





ARM Ах ЖЁН AR 


2 个 周期 外 ,乘法 操作 的 范围 和 速度 与 ARMOE 相同 。 有关 ARMIOE 指令 的 半期 定时 ,可 
参考 附录 了 的 D,.6 节 。 

ARMIOE 实现 了 一 个 后 台 装 载 机 制 米 加 速 多 数据 装载 和 存储 。 一 个 多 数据 装载 和 存 
储 指 令 可 以 用 1 个 周期 发 射 , 操 作 将 会 在 后 台 运 行 。 如 果 试 图 在 后 台 装 载 完 成 之 前 使 用 数 
据 值 ,那么 内 核 会 插入 等 待 周 期 。ARMI10F 使 用 一 个 64 位 宽度 的 数据 通路 ,每 个 后 台 周 其 
能 够 传送 2 个 寄存 器 。 如 果 地 址 不 是 64 位 对 齐 , 那 么 第 1 个 周期 只 能 传送 32 位 。 


А # ARMIOE FE DSP REKREAS 

e 多 数据 装载 和 存储 在 后 台 执 行 , 可 获得 较 高 的 存储 器 带宽 。 无 论 何 时 ,应 尽 可 能 使 
用 名 数据 装载 和 存储 。 和 仔细 调整 代码 ,在 后 人 台 装 载 完 成 之 前 不 要 使 用 数据 ， 

e 确保 数据 数组 是 64 位 对 齐 的 ,使 装载 和 存 情 操作 能 够 每 周期 传送 2 个 字 。 

e 乘法 操作 不 能 提前 终止 ,因此 应 使 用 MUL 和 MLA 来 实现 32 位 整数 乘法 ;16 iE 
法 使 用 SMULxy 和 SMLAxy, 

e SMLAxy № SMULxy 多 一 个 周期 ,所 以 把 乘 累 加 拆 分 成 单独 的 乘法 和 加 法 是 有 





Əpin= SiecloleAedqd WEAS NHY 


用 的 。 

СИВ. о] EHE N 是 10 的 倍数 。 

х RN D ;输入 数组 x[ | 

c RN 1 IS <[] 

N RN 2 :采样 点 的 数目 (10 的 倍数 ) 
266 асс RN 3 Tq 

x 10 RN 4 ;封装 数组 OLE 

x 32 RN 5 

x 54 RN 6 

x 7b RN 7 

x 98 ЕМ 8 

c. 10 RN 3 ;封装 数组 c[ 的 元 素 

c 32 RN 10 

c 54 RN 11 

c 76 RN 12 

c 9B RN 14 


;int dot 16by16 arml0(short sx, short жс, int n) 
dot l6byl6_arm10 

STMFD spl, {r4- rit, lr! 

LDMIA zl, [x 10, x 32! 

MOV acc, #0 
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LDMIA ct, {c 10, c 32) eo 
loop 10 ;累加 10 个 乘积 & 

5085 N, N, #10 =F 

LDMIA x!, [x 54, x 76, x 98] » 

SMLABB acc, x 10, c 10, acc (Q 

SHLATT асс, x 10, c 10, acc a 

LDMIA cl, {с 54, с 76, c ЭВ} v 

SMLABB acc, x 32, c 32, acc Q 

SMLATT acc, x 32, c 32, acc (p 

LDMGTIA — x! (x 10, x 32) s 

SMLABB acc, x 54, c 54, acc © 

SMLATT acc, x 54, c 54, acc ` 

SMLASB acc, x 7b, c 70, acc 

LDMGTIA в}, (c 10, c, 32] 

SHLATT acc, x 75, c 76, acc 

SHLABB acc, x 98, c 98, acc 

SHLATT acc, x 9B, c 38, асс 

BGT loop_10 

MOV rÜ, acc 

LDMFD sp!, (rá- rll, pc) 


内 循环 处 理 10 个 采样 值 共 涡 25 个 局 期 ,平均 为 2.5 个 周期 /tap。 267 


8.2.6 Intel Xscale By DSP 


Intel Xscale 和 ARM9E, ARMIOE 一 样 , 是 ARM 体系 结构 ARMSTE 版 本 的 实现 ， 
RARE PRH ARMIE 相同 ,而且 为 ARM9E 优化 的 代码 能 在 Xscale 上 有 效 执 
行 。 有关 Xscale 指令 的 周期 定时 ,可 参考 附录 卫 的 也 ? 节 。 


jh # Intel Xscale _E DSP {+ ЕЗИНЕ 

e 双 宁 装载 指令 LDRD 在 单个 周期 里 可 传送 2 个 字 。 可 调整 代码 ,以 确保 在 装载 后 的 
2 个 周期 内 不 使 用 第 1 个 装载 值 ,以 及 在 装载 后 的 3 个 周期 不 使 用 第 2 个 装载 的 寄 
存 器 ， 

e 应 确保 数据 数组 是 64 位 对 齐 的 ,以 便 能 使 用 64 位 装载 指令 LDRD, 

e 乘法 结果 不 能 立即 获得 。 在 乘法 后 面 紧 跟 另 一 个 乘法 可 能 会 插 人 等 待 ,可 调整 代 
码 ,以 使 乘法 指令 搬 人 到 装载 指令 中 ,防止 处 理 器 等 待 ， 

© 来 法 操作 不 会 提前 终 秆 ,因此 应 使 用 MUL 和 MLA 来 实现 32 位 整数 乘法 ;16 (03 











ARM АЖЕН A 





> 法 使 用 SMULxy 和 SMLAxy. 
= [015.7] 使 用 LDRD 指令 提高 装载 带 帘 ， 
à 输入 数组 必须 是 64 位 对 齐 的 ,采样 数 N 是 8 的 倍数 。 
3 x mO ABS xD) (64 位 对 齐 ) 
g с RN 1 ;输入 数组 c[] (64 位 对 齐 ) 
© N RN 2 ;采样 点 的 数目 (8 的 倍数 ) 
L ассо RN 3 | Ей 
р accl _ RN14 
» x10 вна HERA x[] 的 元 于 
D x 32 RN 5 
Ë x_54 RN 6 
Ф x 75 RN 7 

c10  RN8 + 封装 数组 cl Ic 

c 32 RN 9 

c 54 RN 10 

c 76 ЕН 11 


dot 15byl& xscale 


STMFD spl, (r4- r11, Ir! 

LDRD x 10, [z], #8 SUR x 10, x 32 
268 LDRD c.10, [c], #8 BR c 10, c 32 

MOV ассо, #0 

КО accl, #0 

loop xscale 

El 8 +R n 

SUBS N, N, #8 

LDRD x 54, [x], #8 ERR x 54, x 76 

SMLABB _ accÓ, x 10, c 10, асс0 

SMLATT accl, x 10, c 10, асс! 

LDRD e 54, [c], #8 UE c 54, c 76 

SMLABB. асс0, x 32, c 32, acc 

SMLATT accl, x 32, c 32, accl 

LDRGID x 10, [x], #8 DEGERE x 10, x 32 

SMLABB асс0, x 54, с 54, ассо 

‚ SHLATT accl, x 54, c 54, accl 


LDBRGID c 10, [c], #8 PEE c 10, с 32 
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SMLABB асс0, x 76, c 76, асай 
SMLATT accl, x 76, c 76, accl 
BGT loop xscale 

ADD rü, accÓ, acci 

LDMFD spl, (r4- rll, рс} 


内 循环 共 需 14 个 周期 来 累加 8 个 乘积 ,平均 每 个 tap( 抽 头 ) 占 用 1.75 个 周期 。 


8.3 FIR 滤波 器 





Duisse2oud оиб юрда 8 


ЖЕНИЛ (the finite impulse response, FIR) 33 SERE DSP 应 用 的 基本 构造 
模块 ,值得 进行 仔细 研究 。FIR 滤波 可 用 来 去 除 不 需要 的 频率 成 分 ,增强 某 种 特定 的 频率 ， 
或 实现 特别 的 效果 。 下 面 将 集中 讨论 在 ARM 上 滤波 器 的 有 效 实 现 。FIR 泪 波 是 数字 滤波 
的 最 简单 类 型 。 滤 波 后 的 采样 y, 线性 依赖 于 一 个 固定 的 ,有限 个 的 非 滤波 采样 z MUM 
表示 滤波 回 的 长 度 ,那么 对 于 一 些 滤波 系数 с: 


мІ 
у = Mon (8,21) 
imü 


一 些 书 中 将 系数 c; 叫做 冲 澈 啊 应 。 如 果 将 冲 激 信 号 x 二 (1,0,0,0,…) 送 人 滤波 器 , 屠 
么 输出 是 滤波 系数 y= (Ca Cr | Cy ә" BRE. 

接 王 来 考虑 输出 信号 的 动态 范围 和 可 能 溢出 的 问题 假设 使 用 Ол 和 Qm 定点 形式 
XJA СТ НУП z, 和 c;。 换 各 话说 ，; 


Xle] = гоап4(2"х,),С[ 1] = round(2"e,) (8. 22) 
Ж ЧИЙ ЖИ АГ]. 
4[ = С 0]Х[г]+С1]Х[:—1]1+++-+С6М—-1]1ХПп—М-+1] (8.23) 


接着 АСТЕ y, 的 一 个 Q(n 十 m) 表 示 。 但 是 ,A[ 志 是 多 大 呢 ? 要 确保 ARË AEH 
整数 范围 ,并 且 椒 会 得 到 一 个 没有 意义 的 滤波 结果 ,究竟 需要 多 少 位 的 精度 呢 ? 这 里 有 2 个 
非常 有 用 的 不 等 式 来 回答 这 个 问题 。 
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M--1 
| ALt] [< maxt| X[t— i] |,0 i M) x M | cE] | (8. 24) 
=й 


LAU ISI 2; | Xi: — [х У | CLi] | (8, 25) 





ARM BA AURATA 





> 式 (8. 24) 说 明 ,如 果 已 知 [的 动态 范围 ,那么 动态 范围 的 最 大 值 以 滤波 系数 C[;] 绝 
之 对 值 的 总 和 为 上 限 。 式 (8. 25) 说 明 , 如 果 已 知 信号 ХАЈА ВЕ, ЯА A[ 的 动态 范围 以 输 
总 | 入 信号 和 系数 能 量 的 乘积 为 上 限 。 这 2 个 不 等 式 都 非常 有 用 。 对 于 给 定 的 CCO TEGERE 
3 X[ 问 合式 子 相等 。 它 们 是 更 通用 的 Holder 不 等 式 的 特例 ,下 面 用 例子 来 说 明 。 
g 【 例 8. 8】 考虑 由 下 式 (8. 26) 定 义 的 简单 .原生 ,高通 滤波 器 。 滤 波 器 允许 高 频 信 号 通 
š 过 ,但 衰减 低频 信号 。 
3 y, =— 0. 452, + 0. 9,1 — 0.452... ‚ _ (8.26) 
a 假设 使 用 Ол 和 Qm 的 16 位 定点 信和 号 X[ 口 和 СГ z, 和 上 那么， 
Ф СЇ] —— 0. 45 x 2^, C[1] = 0.90 X 2",СГ2] =— 0. 45 х2” (8,27) 
o] 既然 XC 16 вай, XD ca ,因此 ,使 用 上 面 的 第 一 个 不 等 式 ， 

| A[2 |< 2W x 1.8 х2" = 1.8 х 219" (8.28) 


如 果 ml MA АЖЕ Н 32 位 整数 。 所 以 ,用 和 =15 作 最 大 系数 精度 。 下 面 的 
整数 计算 用 16 位 Qn $8 A, ХГ 32 位 QCa 十 15) 输 出 A[ 可 ,实现 滤波 器 : 


A[t] —— 0x399A x XEt] + 0x7333 * X[t— 1] — 0x399A x X[t— 2]; 


对 于 Qn Wi ҮП} “ШҮП: ]=А[:] >> 15, mi ox HE 3E 16 位 上 整数。 因此 这 里 
需要 饱和 这 个 结果 ,或 者 用 Q(n 一 1) 表 示 形 式 来 保存 结果 


块 FIR 滤波 器 
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Е.З T 38 06 ЕШ ШЖ @ AMRAN RE, СИКО t PUR E LB 
А[1=С[0]* ХЕС] = X t—1]4-: +CLM—1]x X[t —-M+1]; 
一 般 XLI Ci] ЕЕ К,А ТЕ 2e SERENA. X p=8,16 sk 32, 38 8.3 列 出 了 


— ЕЕ. | 
993 AFE B05 3838385 
E J ХП лн CU] 的 精 庶 7 位 由 [ 门 的 精度 /性 
mou 8 8 16 
med 18 16 32 
m mau ЕЕГ 32 64 


这 里 要 介绍 长 16 位 和 32 НИНИ. КАРИ IU UE МИ Х.Ж JA 
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能 把 滤波 器 的 系数 保存 在 寄存 器 中 。 可 以 像 例 8. 8 3ERE ТЕ ЖИП) ЖЕШ ЕЕЕ ae , 短 
滤波 器 的 系数 可 以 放 在 寄存 器 中 。 

对 于 长 滤波 器 ,每 个 结果 A[t] 依 赖 于 从 存储 器 读 出 的 M 个 数据 值 和 M 个 系数 。 这 些 
读 取 比 较 耗 时 ,并 且 仅 仅 计 算 单个 结果 A[ 妇 的 效率 很 低 。 当 装载 数据 和 系数 时 ,可 以 同时 
计算 AL 十 1] 甚 至 ALt 十 2]。 

一 个 尺 路 (R-way) 块 滤波 器 使 用 一 个 单 通路 的 数据 X Le 812 C[ 门 实现 计算 R 个 值 
ALtj,ALt 二 +1],…, A[t 十 R 一 1], 这 样 可 以 减少 存储 器 访问 的 次 数 。 相 对 于 分 别 计算 每 个 
结果 ,只 有 1/R 访问 次 数 , 所 以 R 应 该 尽 可 能 大 。 另 一 方面 ,R 越 大 ,就 需要 更 多 的 寄存 器 
来 保存 计算 值 数据 或 系数 。 在 实践 中 ,只 要 在 内 循环 中 不 会 用 尽 寄 存 器 ,就 可 以 尽 可 能 选 
择 大 的 RR。 在 下 面 的 例子 中 ,将 会 说 明 在 ARM 上 一 般 取 尺 为 2~6， 

一 个 RXS 块 滤波 器 是 一 个 RR 路 块 滤波 器 。 在 这 R 路 块 滤波 器 中 ,对 内 循环 的 每 个 重 
复 , 一 次 读 取 S 个 数据 和 系数 值 。 在 每 次 循环 中 ,累加 RXS 个 乘积 ,获得 R 个 累加 值 。 

8.3 显示 了 一 个 典型 的 4X3 块 滤波 器 的 实现 。 左 边 的 每 个 累加 值 ,是 右边 的 系数 和 
每 列 首 行 单个 值 的 乘积 的 和 。 由 于 滤波 程序 将 会 按照 存储 器 地 址 的 增长 顺序 装载 数据 ,图 
中 从 最 早 的 采样 点 X -ws 开始 。4X3 滤波 器 的 每 个 内 循环 累加 了 4X 3 平行 四 边 形 里 的 
12 个 乘积 。 在 图 中 把 第 1 个 平行 四 边 形 和 第 3 个 平行 四 边 形 的 第 一 个 采样 点 用 阴影 表示 。 








Х, 1-М +7 








图 8.3 一 个 4X3 块 滤波 器 的 实现 


从 图 8. 3 中 可 以 看 到 ,一 个 RX S 块 滤波 器 的 实现 需要 R 个 累加 值 寄存 器 和 有 R 一 1 个 输 
人 采样 的 历史 记录 ,还 需要 一 个 寄存 器 来 保存 下 一 个 系数 。 在 把 S 个 乘积 加 到 每 个 累加 器 
中 后 ,循环 开始 重复 ,因此 必须 把 XC] RI X[1 一 S] 分 配 到 同一 个 寄存 器 ,同时 必须 把 至 少 
R 一 1 个 采样 的 历史 值 保 存在 寄存 器 中 ,因此 528-1, 基于 这 个 原因 , 块 滤波 器 通常 需要 
RX(R—1) RXR 大小。 

下 面 的 例子 给 出 了 优化 的 块 FIR 实现 。 对 于 不 同 的 ARM 内 核实 现 ,要 选择 最 佳 的 R 
FIS fü. 


ШЖ: 在 这 些 实现 中 ,系数 在 存储 器 中 反 序 存储 。 
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ARM IRA RETE 








图 8.3 显示 了 从 系数 CLM 一 1 开始 ,向 后 操作 ，。 


【 例 8.9] 3l ARM?TDMI K 3 FE ix 8 gr 16 位 和 32 位 数据 项 在 32 位 字 中 。 这 
样 可 以 使 用 多 数据 装载 ,以 获得 最 高 装载 效率 。 这 个 例子 实现 了 一 个 16 位 输 人 数据 的 4 x 
3 抉 滤波 器 。 数 组 指针 ez 和 < 指向 图 8, 4 给 出 格式 的 输出 和 输入 数组 ， 


RN 14 
RN 5 
RN 6 
BN 7 
RN 8 
RN 9 
RN 10 
RN 1i 





图 8.4 数组 a,x 和 c 的 格式 

FEAH r REM-I 个 采样 的 历史 记录 ,并 且 反 置 系数 数组 。 这 里 把 系数 数组 指针 
和 长 度 财 放 在 一 个 结构 中 ,这 样 函 数 还 可 有 4 个 寄存 器 参数 。 同 时 假设 N 是 4 的 倍数 ,M 
是 3 的 倍数 ， 


Ж ЖЕКЕ аг] 

1 输入 采样 数组 x] 
ESO c[] 

! 输 出 的 数 县 (4 EO 
;系数 的 数 且 (3 的 倍数 ) 
;系数 寄存 内 


Жей 


8 B RU 


;void fir 15byl6 arm7m 
Ё (int *a, 
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} dnt *x, 
1 struct | int ж c,unsigned int M,j xc, 
; unsigned int №) 
fir 16616 arm7m 
STMED spl, fr4- ril, lr} 
ШТА с, (c, M) :装载 系数 数组 和 长 度 
next sample arm7m 
STMED — spl, (N, М} 
LDMIA  x!, ix 0, x 1, x 2] 
MW ао, #0 ШЕ 
MOV a 1, #0 
MOV a 2, #0 
MOV a 3, #0 
next tap arm?m 
处理 下 一 个 块 (4x3 = 12) 的 taps 
LDMIA cl, (c O, c_1, c 2) 
И.А а 0, x Ü, с 0, а 0 
MLA а 0, x 1l,cl, að 
HLA à0,x2,c2,a0 
HLA all, x 1, c.0, a_1 
MLA a l, x 2, c 1, al 
ЮЛ  a2,x2,c0,a2 
LIMIA xl,íxO,x1,x2) 


Duisse2o14g PUBS IDHBIO g 
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al,x0,c2,al 
22,xÜ0,cl,a2 
а 2, x 1, c_2, a 2 
a_3, х0, c_O, a 3 


MA 

HLA 

МА 

MLA 

MLA a3,xl,cl,a3 
HLA a3,x2,c02,a3 
SUBS 

ЕСТ 
LOMED 


к, M, #3 ;处理 3 个 系数 
next_tap_arm?m 
spl, (N, М} 
SIMIA al, {ad,a 1, a 2, a 3] 
SUB c, c, M, ISL# 2 КЖ ЖЖ 
SUB `x, x, M, LSL#2 1 恢复 数据 指针 
MD — x,x, #(4-3)ж4 提前 数据 指针 


SUBS N, N, #4 ТЕА НЕ 
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ARM 嵌入 式 系 统 开发 


BGT next sample arm7m 
LDMFD spl, irá- rll, рс! 


每 个 内 循环 的 重复 操作 处 理 接 下 去 的 3 个 系数 ,并 更 新 4 个 滤波 输出 。 假 设 系 数 16 
位 ,每 个 乘 累加 需要 4 个 周期 ,那么 在 62 个 周期 里 , 它 处 理 了 12 个 滤波 器 tap GE XO. X 
FIR 的 性 能 是 每 个 tap Chl 3 o3 5.17 个 周期 (5. 17 cycles/tap) 。 


注意 ; 使 用 减法 来 生 位 系数 和 栓 入 指针 < 和 z， 可 减少 开销 ,所 以 没有 把 它们 的 值 保存 到 堆 槛 中。 


【 例 8.10] 给 出 针对 ARM9TDMI 的 一 个 优化 的 块 滤波 器 。 

首先 ,ARM9TDMI 有 单 周 期 16 位 装载 指令 ,所 以 使 用 多 数据 装载 没有 多 大 好 处 ,可 以 
通过 存储 数据 和 系数 在 16 位 半 字 来 节省 存储 器 ;其 次 ,可 使 用 4X4 块 滤波 器 实现 ,而 不 用 
4х3 实现 ,这 将 减少 外 部 的 循环 ,并 且 当 系数 的 数目 是 4 的 倍数 而 不 是 3 的 情 数 时 ,用 4X4 
块 滤波 器 是 很 好 的 。 

除了 现在 输入 数组 是 16 位 ,输入 和 输出 数组 和 例 8. 9 的 格式 一 样 。 输 出 和 系数 的 数目 
М ЖМ 都 是 4 的 入 数 ， 


a RN 0 ;输出 采样 数组 a[] 

x RN i 1 输 人 采样 数组 x[ | 

c RN 2 1 系数 数组 c[ | 

N RN 3 ;输出 的 数目 (4 的 倍数 ) 
N RN 4 ;系数 的 数 日 (4 的 倍数 ) 
с_0 RN 3 Кат 

c 1 RN 12 

х_0 RN 5 ;数据 寄存 器 

x1 RN 6 

х2 RN 7 

x 3 RN 14 

a_0 RN 8 ;输出 时 加 器 

а_1 RN 9 

a2 RN 10 

a3 RN 11 


void fir 16byi6 armSm 
; (int жа, 
short * x, 
4 struct ( short к c;unsigned int M;) xc, 
; unsigned int М) 
fir lóbyl& arn98m 
STMFD spl, (x4- rll, ir} 
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LDMIA с, fc, M) с 
next sample arm?m s, 

STMFD — sp!, (N, M) e 

LDRSH х0, [х], #2 Q 

LDRSH — x l, [z], #2 & 

LDRSH х2, [5], #2 à 

LDRSE х3, [х], #2 "Uu 

MOV a 0, #0 О 

MOV al, #0 e 

MOV a 2, #0 6 

MOV a 3, #0 à 
next tap arm9m . 

ABB F— LOL x 4 = 16) taps 

LDRSE с0,[с], #2 

LDRSH c 1l. [е], #2 

SUBS M, M, #4 

MLÀ а 0, x.0, c 0, aà Ü 

LDRSH — x D, [х], #2 

МА а 1, х1, c G, а 1 

MLA a 2, x2, с 0, a 2 

MLA a 3, х3, c0 a3 

IDRSH c0, [c], #2 

MLA а 0, x.1, G.1, a 0 275 


LDRSH х1, [х], #2 
ЮА a і, x 2, cl, al 


MLA a 2, x3, cl, až 
МА а 3, х0, с 1, ad 
LDRSH е1, [е], #2 

МА а Ü, x 2, с 0, а 0 
LDRSH х2, [х], #2 

HLA al,x3,c0,al1 
MLA a2,x0,c0,a2 
HLA a 3. x 1, с 0, a3 
MLA a 0, x_3, c 1, а 0 
LDRSH x3,Íx], #2 

MLA а 1, x 0, с1,а1 
HLA a 2, х1, ci 8 2 
HLA a3,x2,cl,a3 


BGT next tap arm9m 
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LDMFD — spl, (B, M) 
STMIA al, іа 0. a 1, a 2, a 3j 


SUB c, c. M, LELẸ 1 ;恢复 系数 指针 
SUB x, x, M, 1511 :提前 数据 指针 
SUBS N, N, #4 . 4 TORRE SEE 
BGT next sample arm3m 


LDMFD . spl, írd-rll, pc) 


x BHUBO SE Sr EE PX ZTARNRISHEESIB. "HERI E ES M 
EHI SIERA fS B DRE. DUREE ИЕ ENT IRL BR 

内 循环 的 每 个 重复 处 理 接 下 去 的 4 个 系数 ,并 且 更 新 4 个 滤波 输出 。 假 设 系 数 是 
16 f, АЖЕ 4 个 局 期 ,因此 它 在 76 个 周期 里 处 理 16 个 滤波 tap( 抽 头 ) ,得 到 4. 75 
cycles/tap 的 块 滤波 性 能 。 

这 展 民 码 对 于 其 它 АВМ 体系 结构 的 处 理 器 ,如 StrongARM, 也 可 以 很 好 地 工作 。 
在 StrongARM 上 内 循环 项 要 61 个 周期 , 即 3. 81 cycles/tap, 


[m] 8.11】 ARM9E 比 其 之 前 的 ARM 处 理 器 有 更 快 的 乘法 器 。 当 2 个 16 位 值 被 打 
包 在 一 个 32 位 字 中 时 ,ARMY5TE 16 {у {Н 4 ШЖ 16 位 数据 。 因 此 可 以 在 寡 存 器 
中 存储 更 多 的 数据 和 系数 ,从 而 使 用 更 少 的 装 裁 指令 。 
本 例 为 ARMSTE 处 理 器 实现 一 个 6X8 抉 波 波 器 。 为 了 获得 最 高 速度 ,程序 进行 了 
优化 ,所 以 程序 比较 长 。 如 果 不 需要 太 好 的 性 能 ,可 以 使 用 4X4 块 实现 来 减 小 代码 的 尺寸 。 
除了 输入 数组 现在 是 16 位 值 , 输 信和 输出 数组 和 例 8. 9 有 同样 的 格式 。 输 入 和 系数 的 
AA NAM GAEE 的 倍数 。 输 入 数组 必须 是 32 位 对 齐 的 ,并 且 存 储 器 系统 是 小 端 配 
置 的 ， 如 果 要 编写 针对 大 端 存储器 系统 的 程序 ,那么 须 用 宏 来 代替 SMLAxy 指令 ,依据 大 
小 端 改 变 了 和 也 药 设 置 ， 便 如 下 面 的 宏 :SMLA00 定义 SMLABB 或 SMLATT, 分 别 用 于 
小 端 和 大 端的 存储 器 系统 。 如 果 坪 和 * 以 16 位 数组 读 取 ,那么 SMLAO0 通常 用 ecL0] 委 以 
Боля Е й, 
MACRO 
SMLAOO0 5а, $h $c, Sd 
IF (ENDIAN) = "big" 
SHLATT $a, 5h, $c, 8d 
ELSE 
SMLABB $a, $b, 5c, Sd 
ENDIF 
HEND 


为 了 使 例子 简单 ,没有 使 用 这 样 的 宏 。 王 面 的 例子 只 是 工作 在 小 端 存储 器 系统 。 
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а RN O ;输出 采样 数组 a[] oo 
x RN 1 ;输入 采样 数组 x[] (32 位 对 齐 ) & 
c RN 2 + 系数 数组 c[] (32 OSEE) Д 
N RN 3 ;输出 的 数目 (6 SERO - 
M RN 4 + 系数 的 数目 (6 的 倍数 ) б 
c. 10 RN 0 ;系数 对 ñ 
c 32 RN 3 Y 
x 10 RN 5 ;采样 对 8 
x 32 RN 6 Ф 
х_54 EN 7 £ 
a0 RN & ;输出 累加 器 e 
al RN 9 

a2 RN 10 

a 3 RN 11 

a 4 RN 12 

a 5 RN 14 


void fir i6byle агтде 
; (int ға, 
p abort *x, 
1 Struck ( short * crunsigned int Mj) # c, 
, unsigned int N) 
fir l6byl8 aru9e 
STMED spl, (rá- rli, lr} 
LIMIA . c, lc, M) 
next sample агшде 
STHED apl, (a, Н, M) 
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LIMIA x!, [x 10, x 32, x 54] SET 6 个 采样 
MOV a 0, #0 ‚Жл 
MOV al, 40 

MOV a 2, }0 

MOV a 3, #0 

MOV a 4, #0 

MOV a 5, #0 


next tap armüe 
;处 理 下 一 个 块 (6x6 = 36) ff taps 
LDMIA c!, (c_10, c 32) ;装载 4 个 系数 
SUBS M, M, #6 
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SMLARB 
SMLATE 


SHMLATS 


SMLATB 


a 0, x 10, 
a 1, х i0, 





c 10, a Ü 
c 10,a 1 





a 2, x 32, 
a 3, x_32, 


c 10, a 2 
c 10,a 3 





а 4, x 54, 
a 5, x 54, 
a 0, x 10, 
x 10, [x], 
а l,x 32, 
a 2, x 32, 
& J, x 54, 
à 4, x 54, 
a 5, x 10, 
c. 10, [с], 
а 0, x 32, 
a 1, x 32, 
а 2, Xx 54, 
a 3, x 54, 
a 4, x 10, 
a 5, x 10, 
a 0, x 32, 
x 32, [x], 
a_l, x 54, 
a_2, x 54, 
a 3, x 10, 
a 4, x 10, 
a_t, x 32, 
a 0, x 54, 
a_l, x 54, 
a 2, x 10, 
а 3, x 10, 
à 4, x 32, 
a 5, x 32, 
a 0, x 54, 
x 54, [x], 


сіб, a 4 
c 10,a 5 
c 10, a Q0 
#4 

с 10, а 1 
c 10, а 2 
e 10, a 3 
c 10, а 4 
с 10, а 5 
#4 

c 32, а 0 
c 32, а 1 
с 32, а 2 
c, 32, а 3 
c 32, a d 
c 32,a 5 
c 32, a 0 
#4 

с 32, а 1 
с 32, а 2 
с_32, a 3 
c 32, а 4 
c 32, a 5 
c 10, а 0 
с 10, a_1 
с 10, а 2 
c 210, а 3 
с. 10, a 4 
c 10, а 5 
c 10, а 0 
#4 


а i, x 10,0 10, а 1 


a 2, x 10, 
a 3, x 32, 


c 10,a 2 
e 10,a3 





:装载 2 个 系数 
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SMLATT a 4, x_32, c_10, a 4 e 
SMLABT a5,x 54, c 10,a 5 ЫШ 
BGT next tap arm9e Q. 
LDMFD spl, (a, N, М} a 
STMIA al, ía0,a 1,a2,a 3, a 4, a 5l & 
SUB с, c, M, LSL#1 ;恢复 系数 指针 a 
SUB x, x, M, LSLdE 1 ;提前 数据 指针 D 
SUES N, B, #6 8 
BGT next sample агиде Ф 
LDMFD spl, {r4- rll, pc) zd 

J 

Q 


内 循环 的 每 次 重复 更 新 相 邻 的 5 个 泪 波 输出 ,累加 6 TAPUS SRB. 3€ 8.4 显示 
了 ARMv5TE 体系 结构 处 理 器 的 运行 周期 定时 。 
398.4 ARMSTE 16 (i: ELE E IH 





Б. z EE ЕН 3 J8 34 xk dE cycles/tap 
ARM9E | 45 46/36— 1, 28 
ARM10E 78 78/362 2.17 


XScale 46 46/35-2 1. 28 


[И 8.121 有 时 16 位 数据 项 不 能 提供 足够 的 动态 范围 。ARMv5TE 体系 结构 增加 ~ 
条 指令 SMLAWx, 使 32 位 数据 被 16 位 系数 滤波 更 有 效 。 这 条 指令 用 一 个 16 位 系数 乘 以 
32 位 数据 项 ,截取 48 位 结果 的 高 32 位 ,并 把 它 加 到 32 位 的 累加 器 中 。 

这 个 例子 实现 了 一 个 32 位 数据 和 16 位 系数 的 5X4 抉 滤波 器 。 除 了 系数 数组 是 16 位 
的 外 ,输入 和 输出 数组 的 格式 和 例 8,9 一 样 。 输 出 的 数目 必须 是 5 的 倍数 ,系数 的 数目 则 是 
4 的 倍数 。 输 入 系数 数组 必须 是 32 位 对 齐 的 ,存储 器 系统 是 小 端 配置 。 像 例 8. 11 描述 的 
一 样 ,可 以 用 宏 定 义 编写 大 /小 端 无 关 的 代码 。 

如 果 输 入 采样 和 系数 分 别 使 用 Qn 和 Qm 形式 ,那么 输出 使 用 QU m 16), 
SMLAWx' hie 16 fr, UPEN. 
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a RE 0 ;输出 采样 数组 al ] 

x RN 1 f АЖЕК x] 

с RN 2 ;系数 数组 cl | G2 位 对 齐 ) 
N RN 3 ;输出 的 数目 (5 的 倍数 》 

М RN 4 ;系数 的 数目 (4 的 信 数 》 

c 10 RN о :系数 对 

c_32 RN 3 


x 0 RN 5 ;输入 采样 
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ARM 嵌入 式 系统 开发 
х_1 RN 6 
x 2 RN 7 
x 3 RN 14 
в Ü RN B 
a1 RN 9 
a 2 RN 10 
a 3 RN 11 
a 4 ЕН 12 


fir 32byl6 агшбде 


next sample32 arm9e 


next tapi2 arm9e 





E pE pE 


void fir_32by16_armge 


j (nt жа, 


} dnt xx, 


r struct | short *c,unsigned int M;) «c, 


1 unsigned int N) 


STMFD 
LDMTA 


MOV 


ap!, irá- r11, lr} 
€, (c, M] 


8p], (a, N, M) 

x), {х 0, х1, x 2, x 3) 
a0, 0 

a_l, #0 

a2, #0 

a 3, #0 

a 4, #0 


;处 理 下 一 个 块 (5xd = 20) taps 


LDMIA 
SUBS 
SMLANB 
SMLAWB 
SMLAWB 
SMLAWE 
SHLAWT 
LDMIA 
БИГАТ 
SMLAWT 


cl, (o 10, с 32) 
M, M, #4 

a Ü, x 0,c 10,a 0 
à l,x1,cl0,a1! 
а 2, х2, с 10, а 2 
а 3, х3, c 10, a 3 
а Ü, x1,c_ 10, a 0 
x!, (x 0, x 1) 
al,x2,c10,a1 
a 2,x 3,c 10, а 2 


;装载 系数 数组 和 长 庶 


3 I E 
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SKLAWB a0,x2,032,a 0 Ф 
SHLAWB al, x_3, c_32, a 1 U 
SMLAWT a0,x3.,c32,a0 а 
LDMIA хі, íx 2.x3j > 
SHLAWB a 4, x 0,c 10, а 4 i 
SMLAWT a 3,x0,c 10,a 3 a 
SMLAWI a 4, х1, с 10, а 4 Y 
SHLANE — a2,x0,c 32,22 Ө 
SHLANE — a3,x1,c32,a 3 D 
SMLAWB a 4, x 2, c, 32, a 4 5, 
SMLAWT al,x0.,c32,a] © 
SHLAWT a 2, zł, Cc 32,a 2 
SMLAWT a 3,x2,c 32, a 3 
SMLAWT a 4, x 3, c 32, a 4 
BST next ЁЕар32_агшбе 
LDMED spl, fa, N, M) 
STHIA al,í(a0,a1,a2,a3,a 4) 
SUB C, 6, М, LSLH1 
SUB x, x, M, LSL#2 
AUD x, x, $(5-4)+*4 
SUBS N, N, #5 
ет next_sample32_arm9e 281 
LDMFD spl, (r4 - r11, pe) 


内 循环 的 每 次 重复 更 新 5 个 滤波 输出 , л RSS SAW. 28 5 显示 了 
ARMv5TE 体系 结构 处 理 器 的 周期 定时 。 


Ж 8.5 ARMSTE 32x 16 iE ERE Pj 





处 再 器 DE ESTEE. BR EA cycles/tap 
ARMIE 30 30/20=1,. 5 
ARMIOE 44 14/20—2,.2 
XScale 34 34720 一 1.7 





[018.131] 高 质量 的 音频 应 用 通常 需要 比 16 位 高 的 采样 精度 。 在 ARM 上 可 以 使 用 
КЖЕ SMLAL 来 实现 一 个 32 位 输入 数据 和 系数 的 高 效 的 滤波 器 ,输出 值 是 64 位 。 这 
使 得 ARM 非常 适合 CD 音质 的 应 用 。 

输出 和 输入 数组 和 例 8.9 有 同样 的 数据 格式 。 这 里 实现 一 个 3X2 的 块 滤波 器 ,所 以 N 











ARM BALA AR 





> 必须 有 是 3 的 倍数 ,凡是 2 的 倍数 。 在 任何 ARMv4 实现 的 处 理 器 上 ， 该 滤波 器 都 工作 得 
之 很 好 。 
c» 
= a RN Q ;输出 采样 数组 al] 
o x RN 1 ;输入 采样 数组 х] 
3 m2 ,系数 数组 Г] 
y N RN 3 ;输出 数组 (3 的 信 数 ) 
$ н RN4 ;系数 的 数目 (2 的 信 数 ) 
O co RN3 EX EI 
$ cl RN 12 
e x Q0 RN 5 ;数据 寄存 器 
出 x1 RN 6 
Q aD] RN? RME OE 32 位 ) 
Ф 0h ане RAGS 32 位 ) 
a 11 RN 9 
a ih RN 10 
a 21 BN 11 
a 2h RN 14 


гусі fir 32by32 


; (long long *a, 
; int < x, 
282 


;1 sStruct Í int *c;unsigned int M;} *c, 


1 unsigned int N) 


fir 32by32 
STMFD spl, {r4 - rll, lz) 
LDMIA с. te, M) 
next sample32 
SIMED spl, (B, Mj 
LDMÍA xl, 1x 0, x 1) 
MOV a 01, #0 
MOV a Oh, #0 
MOV a li, #0 
MOV a lh, #0 
MOV a.21, #0 
MOV a 2h, #0 
next tap32 


HAE F — A 3R03x2 = 6) taps 
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LDMIA cl, еб, c 1j Co 
SHLAL a 01, а Dh, x O, c 0 & 
SMLAL, a 11, a 1h, x_1, c Ü = 
SHLAL a 01, a Oh, x 1, c 1 > 
LDMIA xl. {x ü,x 1} i 
SUBS M, M, H2 3 
EMLAI, a 21,a 2h, x 0, c Ü "U 
SMLAT, a_11, a_1h, x_0, 61 Ө 
SMLAL a_l, a_2h, x 1, c.1 Ф 
BGT next tapi2 = 
LDMFD spl, (N, M) e 
STMIA al, [a 01, à Oh, a 11. a 1h, а 21, а 2h) 

SUB C, C, M, LSL 半 2 

SUB x, X, M, LSL 半 2 

ADD x x, #O3-2)* 4 

SUBS N, N, #3 

BGT next sample32 

LDMED sp!, [r4- rll, pc) 


内 循环 的 每 次 重复 处 理 接 下 去 的 2 个 系数 并 更 新 3 个 滤波 输出 。 假 设 系数 使 用 32 位 
的 全 部 范围 ,乘法 不 会 提前 终止 。 程 序 对 大 多 数 ARM 的 实现 都 是 最 优 的 , 表 8.6 给 出 了 在 
一 些 处 理 器 上 的 运行 周期 数 。. | 


283 
353.6 32x32 t0 DE SME) 

ян B d se ДЗ š EM $Ë cyeles/tap 

ARMTTDMI 54 54/5=9 

ARMS TDMI 50 5078 一 8. 3 

StrongARM 31 ` 81/6—5.2 

ARM9E | 26 26/6=4.3 

ARM10F 22 22/6—1.7 

XScale 22 22/6=3.7 





f Ё # ARM EU FIR SES 
е 如 果 FIR 系数 的 数目 足够 少 ,那么 应 在 寄存 器 中 存放 系数 和 采样 信 。 系 数 经 常 被 重 
复 使 用 ,这 样 会 节省 所 需 的 寄存 内 数目 。 
е WX FIR 滤波 器 长 度 很 长 ,那么 可 使 用 一 个 尺寸 为 Rx (R 一 1) 或 RXR [Ж ЕИ 
算法 ,应 选择 ARM 上 可 使 用 的 14 个 通用 寄存 器 所 人 允许 的 最 大 的 只 。 | 
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e 应 确保 输入 数组 根据 访问 大 小 对 齐 。 当 使 用 LDRD 时 ,是 64 位 对 齐 的 。 应 确保 数 
组 的 长 度 是 块 大 小 的 倍数 。 
e 应 调整 代码 ,以 避免 所 有 装载 或 乘法 引 人 的 互 锁 ， 


8.4 ПЕ; Ж 


Jc тра У ПЕ gl E38 — ARER TA R Sr ЖИ A ЖЕШ ЖЕШ y B aë 
UG EN ЕШ. Бай. Ea Г FIR 滤波 器 和 从 先前 滤波 输出 的 反馈 。 从 数 
学 上 讲 , 对 于 一 些 系 数 b; fll a;: 


M L 
y = ba. 一 Mau (8, 29) 
i-0 j=l 


如 果 输入 溃 激 信和 号 z=(1,0,0,0,…) ,那么 y 可 能 永远 振 萝 下去。 这 就 是 为 什么 它 有 无 
限 冲 激 响 应 然而 ,对 一 个 稳定 的 滩 波 器 , y 会 训 减 为 0。 本 节 将 讨论 这 种 滤波 器 的 有 效 
实现 ， 

用 式 (8. 29) 可 直接 计算 输出 信号 y,。 在 这 种 情况 下 ,代码 和 8. 3 节 中 的 FIR 类 似 。 但 
是 ,这 种 计算 方法 在 数字 上 可 能 会 不 稳定 。 把 滤波 器 分 解 为 一 系列 二 阶 节 (biquads) 一 —M 
=L=2 的 IR 滤波 器 ( 双 二 阶 滤波 器 ) ,通常 会 更 精确 、 高 效 。 


у = бл + b za + бе, — a yea — 2 yea (8, 30) 
i EH — 65 — Bp CREE RE S ПЗЕ {ЕЩ IIR 滤波 器 。 为 了 说 明 这 一 点 ,可 以 使 

用 z 变换 。 这 种 变换 与 每 个 信号 z, 关联 ,多 项 式 IOELA: 
z(z) = Dr (8. 31) 


如 果 把 ПЕ 等 式 变换 为 * 坐标 ,可 以 得 到 : 
(lav +e -Haryo = (h +b dee + buz ele) (8. 32) 
等 效 地 ， 
= нох _ b thr’ te tbu" 
y(z) = Hirr) HP H(z) = Eme ак (8. 33) 
接 下 来 ,把 后 (z) 作 为 2 个 xz-! 凶 项 式 的 比 。 可 以 把 多 项 式 分 解 为 二 次 因子 ,然后 把 
H(z) 表 示 为 二 项 式 比 Rs 的 乘积 ,每 个 昌 ;(z) 表 示 一 个 二 阶 节 ，。 
所 碎 , 现 在 需要 有 效 地 实现 二 阶 节 。 按 其 字面 意义 ,要 为 一 个 二 阶 节 计 算 y, ,需要 当前 
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采样 zx 和 4 个 历史 项 n n yw， 但 是 ,有 一 个 技巧 可 把 所 需要 的 历史 项 或 状态 
值 从 4 个 减少 到 2 个 。 这 里 定义 一 个 中 间 信 和 号 8 


5 = X,— GiS) — ägs (8. 34) 





那么 
у, = Bes + Bis + 65, (8. 35) 


换 句 话说 ,在 滤波 器 的 FIR 部 分 之 前 , 先 处 理 滤波 器 的 反馈 部 分 。 等 价 地 ,在 处 理 Н) 
分 子 之 前 处 理 分母 。 现 在 每 个 双 二 阶 泪 波 器 (biquad filter) R 2 个 状态 变量 s fl s-z. 

系数 所 控制 二 阶 节 的 幅 刻 , 当 处 理 一 系列 二 阶 节 时 ,可 以 假设 名 一 1, 再 最 后 使 用 一 个 
乘法 或 移 位 来 校正 信 叶 幅度 。 所 以 ,总 而 言 之 ,这 里 已 经 把 TIR 简化 为 一 系列 二 阶 节 滤波 ， 
这 些 二 阶 节 的 形式 为 ; 


S = Z, Aie 8356-8600 = bos, T5 Sg] T 55a (8. 36) 


要 实现 每 个 二 阶 节 , 需 要 在 ARM 的 寄存 器 中 保存 6 个 值 一 2 а b sb sS ss 9 
定点 家 示 。 装 载 一 个 新 的 二 阶 节 需要 6 次 装载 :装载 一 个 新 的 采样 点 只 需 1 КЕЙ. ИШ 
对 于 内 循环 来 讲 , 采 样 点 上 的 循环 比 二 阶 节 的 循环 更 有 效 些 ， 

对 于 块 IIR, 把 输入 信和 号 z 分 成 N 个 采样 点 的 大 巾 。 信 号 经 过 多 次 处 理 , 每 次 通过 寅 
ТЕА ОТЕ ННВ ВО РЕ ОЕ, 典型 地 ,对 于 ARM 处 理 器 ,每 次 经 过 1 T LEUR 
波 处 理 ; 对 于 АКМУ5ТЕ 处 理 器 ,经 过 2 个 二 阶 节 处 理 。 下 面 的 例子 给 出 了 针对 不 同 ARM 
处 理 器 的 IIR 代码 。 

[5/8.14] 在 ARM7TDMI 上 实现 一 个 1X2 的 块 IR 滤波 器 。 

每 次 内 循环 对 接 下 去 的 2 个 输入 采样 使 用 一 个 双 二 阶 溃 波 器 (biguad filter), WAR 
组 的 格式 由 图 8.5 给 出 。 


Duisso2o1g PUBIS IDHBIG g 
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数组 名 ”第 一 个 元 到 第 二 个 元 素 ”第 三 个 元 素 最 后 一 个 元 素 数组 长 度 





图 8.5 数组 x,y 积 的 格式 





A 

< 

e 

aL 

Ф Y 

3 | 

Ф b 

$ N 

О 

ге M 

Q x Ü 

Д х1 

D 

C al 

a a 2 

Q b 1 
Ь 2 
81 
5 2 
ассо 
acel 
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ARM 嵌入 武 系统 开发 


每 个 二 阶 节 В, 是 一 个 6 个 值 (= a T Q bi s bza S-1* $1) 的 列表 。 与 前 面 
“ARM7TDMI 上 的 实现 一 样 ,这 里 把 16 位 输入 值 存储 在 32 位 整数 中 ,这 样 可 以 使 用 多 寄存 
器 装载 。 这 里 把 二 阶 节 系 数 按 QU 定点 格式 存储 ,采样 点 数 N 必须 是 偶数 ， 


RN Ü ;输出 采样 y[ J By b BE 

RN 1 ;输入 采样 x[] 的 地 址 

RN 2 ;biguads 的 地 址 

RN 3 ;被 滤波 的 采样 点 数目 О 的 倍数 ) 
RN 4 ! 使 用 biquads 的 数目 

RN 2 ;输入 采样 

RN 4 

RE 6 ibiquad 系数 - a[1] (014 格式 ) 
RN 7 ;biquad 系数 ~ а[2] (014 格式 ) 
RN 8 ;biquad 系数 + b[1] (Q14 格式 ) 
RN 9 ibiquad 系数 +Ы 2] (014 #20) 
RN 10 [6-1], 86-2] (ZH) 

RN 11 ‚ 3816-2]. 9-1] (Ж) 

RN 12 ;累加 器 

RH 14 


typedef struct | | 

y distala? /з#5014Ж—а[1],-а[2] * / 
1 dntbla2; но #9&+b[1], + b[2] +*/ 
; Ə int 81,82; /*s[t-1], stlt-2] жу 

;} biquad; 

; 

void iir 414 arm)m 

t (int жу, 

n int xx, 

;  Struct { biquad * b,unsigned int Mj) «b, 

; unsigned int R); 


lir g14 агита 


next biquad arm7m 


STMED gpl, {r4- ril, lr} 

LDMIA b, tb, M) 

LIMIA bl, {а 1, а 2,1, b 2, s 1, s 2! 
STMFD spl, tb, N, M) 


next sample arm7m 


LER 2x 1H TIR 
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LDMIA xf, ix 0, x 1} Ф 

;把 biquad 应 用 于 采样 点 0 (х 0) - 

МІЯ, асс, 51, а 1 Q 

MLA aco, s 2, a 2, асый Q 

MUI, accl,s 1,b1 hi 

МА accl, s 2, h 2, acci a 

ADD & 2, х Ü, асс0, ASR #14 "UU 
a 

ADD х_0, s 2, accl, ASR #14 Q 

;把 biquad 应 用 于 采样 点 1 (c D) К 

MUL асс0, s 2, a 1 t 

HLA acc), s 1, a 2, ассо Ф 

HUL acci, s.2, b 1 

MLA accl, s i, h 2, acci 

. ADD s l, x ], ассо, ASR #14 

ADD x l,s 1, accl, ASR #14 

STMIA yl, ix 0, x 1) 

SUBS X, N, #2 

BGT next, sample arm7m 

LDMFD apl, (b, N, M} 

STOB b, {31,82} 

SUB y, у, N, LSL#2 

о х, 1 287 

5085 М, М, #1 

ВЕТ next biquad агт? л 

LDMED ар!, 114-111, рс} 


每 个 内 循环 在 最 坏 情况 下 ,将 一 个 二 阶 节 应 用 于 2 个 采样 点 ,需要 44 个 时 钟 周期 ， 所 
以 对 一 般 的 二 阶 节 ,ARM7TDMI 给 出 的 IIR 性 能 是 22 个 周期 /二 阶 苛 -采样 点 (cyclesy 
biquad - sample) , 


[018.15] 在 ARM9TDMI 上 可 使 用 半 字 装载 指令 ,而 不 用 多 寄存 器 装载 ， 因 此 可 以 
把 采样 点 保存 在 16 位 的 短 整 数 中 。 这 个 例子 实现 了 一 个 适合 于 ARM9TDMI 的 装载 调度 
IIR。 除 了 这 里 使 用 16 位 数据 项 外 ,函数 接口 与 例 8. 14 相同 


y RN 0 ;输出 采样 区 ] 的 地 址 

x RN 1 ;输入 采样 x[ ] 的 地 址 

b RN 2 1i biquads 的 地 址 

N RN 3 ;被 滤波 的 采样 点 数目 (2 的 倍数 ) 
М RN 4 ;使 用 biquads 的 数 自 








ARM 嵌入 式 系统 开发 





> х_0 RN 2 + 输 人 采样 
< xl RN 4 
round ЕНБ АЙ (1 «c 13) 
š al RN 6 ;biquad 系数 - a[1] (014 格式 ) 
5 a 2 ВЕ 7 ibiquad 系数 - a[2] (014 格式 》 
bl RN 8 jbiquad BK € b[1] (014 RA) 
y b_2 RN 9 ;biquad 系数 + b[2] (014 格式 ) 
Š g 1 RN 10 iS[t7 1], s[t - 2] GERD 
O 8 2 RN 11 alt- 2]. s[t - 1] GERD 
$ ассо RN 12 ns 
л acc] ВН14 
© . 
С itypedef struct { 
9 ‚ bortala; —— /*04 MEUM [1]. c [2] x / 
, short bl,b2; ае + bL], + [2] x / 
1 Short s1,s2, /*s[t-1]. 81-2] «/ 
1} biquad, 


; 
jvoid lir _ql4_armDm 
jp (short * y, 
; sbort x x, 
; struct { biquad ж b,unsigned int My) «b, 
; unsigned int N); 
iir 914 arm3m 
STMFD apl, (r4- rll, irj 
LINIA b, (b, М) 
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MOV round, #1 << 13 
iir next biquad 

LDRSE al, [b], #2 

LDRSH a2, [b], #2 


LoRSH b 1, [b], #2 
IDRSH b 2, [b], #2 


LDRSH a_l, [b], #2 

LDRSH s 2, [b], #2 

SIMED spl, (b, B, M) 
lir inner loop ` 

VERI 2x 1 IË TIR 


;把 biquad 应 用 于 采样 点 0 (x 0) 
МА &ccÓ, = 1, a 1, round 
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LDRSH xO, [x], #2 со 
МГА ассо, s 2, а 2, ассо U 
MLA acci, s 1l, h 1l, round ©. 
МА accl, 52, b 2, асс) Q 
ADD s 2, х_0, acc0, ASR # 14 E 
ADD x O, в.2, accl, ASR #14 8 

STRH х0, [у], #2 "u 
Hf biquad 应 用 于 x 1 Q 

MLA ассО, g 2, a 1, round (D 

LDRSH х1, [х], #2 ©. 
HLA асс0, в 1, a 2, ассй а 

МА ассі, sg 2, b 1, round 

HLA accl, s 1, b 2, accl 

ADD s 1l, x 1, ассо, ASR {14 

ADD x l, 5 l1, accl, ASR #14 

STRH xl, [у], #2 

SUBS N, N, #2 

BGT iir inner loop 

LDMFD spl, (b, N, M) 

STRH s l,[b, # -4] 

STRH & 2, ГЬ, 4 - 2] 

SUB y» y. K, LSL 3E 1 289 
MOV X, y 

SUBS M, M, #1 

BGT iir next biquad 

LDMFD sp!, {rd~ rll, pc] 


$8.7 Wok f ARM9TDMI 和 StrongARM 的 周期 定时 。 
表 8.7 ARMAT VIR 周期 定时 





=й XR BNR # 1- biquad - sample # J8 Ж 
ARM9TDMI 4 22 
StrongARM 33 | 06.5 





[98.16] 对 于 ARMvSTE 处 理 器 ,可 以 把 2 个 16 位 值 打包 到 一 个 寄存 器 中 。 这 意 
味 着 可 以 同时 把 2 个 二 阶 节 的 状态 和 系数 保存 到 寄存 器 中 。 这 个 例子 实现 了 一 个 2x2 的 
E IR 滤波 器 。 内 循环 的 每 次 重复 将 2 个 双 二 阶 滤波 器 (biquads filter) 应 用 于 接 下 去 的 2 
TRE, 
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本 例 除 使 用 16 位 的 数组 外 ,输入 数组 的 格式 和 例 8. 14 一样。 二 阶 节 的 数组 必须 是 32 
位 对 齐 的 。 采 样 点 的 数目 N RICETTE SE H M 必须 是 偶数 。 

就 像 ARM9E 的 FIR 一 样 , 这 个 程序 只 能 工作 在 小 端 存储 器 系统 。 如 和 何 用 宏 编写 大 / 
小 端 无 关 的 DSP 代码 ,可 参考 酌 8. 11 节 的 讨论 。 | 


Y RN O ;输出 取样 vL ] 的 地 址 
x RN 1 : 输 人 采样 x[] 的 地 址 
b RN 2 ;biquads 的 地 址 (32 位 对 齐 ) 
N RN 3 WASIMA KE А (2 的 情 数 》 
M RN 4 ;使用 biquads 的 数目 (2 的 倍数 ) 
х_0 RN 2 ;输入 采样 
x 1 RN 4 
s 0 RN 5 :新 状态 
ҺО a21 RNG ibiquad 0, packed - a[2], - a[1] 
b) b21  RN7 j;biquad 0, packed *b[2], +51] 
bs! RNA tbiquad 0, s[ t - 1] 
büs2 Wł% jbiquad 0, s[t - 2] 
bi a21 RN10 j;biquad 1, packed - a[2], - [1] 
bl k21  RNii ibiquad 1, packed +2], +b[i] 
hs! RN12 ;bigquad 1, s[t - 1] 
bls2 RRI4 jbiquad 1, &[t - 2] 

typedef struct | 


, short al,a2; /* 014 BS аГ1), -a2] «/ 
1 Short bl,b2, /*014 格式 系数 +b[1], + b[2] € / 
| Short 51,82; /*s[t-1], $t-2] «/ 


;} biquad; 
t 


;vold iir ql4 агпде 


; (short y, 
;} Short * x, 
; struct | biquad # b,unsigned int M;) xb, - 
; unsigned int N); 
iir 414 arm9e 
STMED — spl, (rd- ril, irj 
LDMIA | fb, M) 
next biquad arr9e 
LDMIA 1, (b0_a21, b0 b21! 
LDRSE bO s 1l, [b], #2 
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LDRSH bO_s_2, [b], #2 eo 
LDMIA bl, (bl a21, bl b21] Ü 
LDRSH bl s 1,[bi, #2 o 
LDRSH bi s2, [bl, #2 c 
STMFD spl, 1b, N, M) Š 
next_sample_arnge д 
:使 用 2x2 块 IIR = 
LDRSH x 0, [х], #2 ë 
LDRSH xl, [х], #2 Q 
SUBS N, N, #2 Д 
MOV x D, x Ü, LSL #14 © 
NOV х1, x 1, LSL #14 
;把 biquad 0 应 用 于 采样 点 0 


SMLABB x 0, Б0 s 1, bo a21, x 0 
SMLABT & 0, р0 s 2, bo a21, x 0 
SHLABB x 0,bh0 s 1, БО b21, в 0 
SMLABT x DO, bO s 2,10 b21, x 0 
MOV bü s 2, s 0, ASR d 14 
;把 biquad 0 jg HIT E FE 1 

SMLABB x l, 0 s 2, bo a21, x 1 
SMLABT s D, b0_s_1, Ьб a21, x 1 
SMLABB x l, bü s 2. 0 b21, 8 O 


SMLABT x 1, Ь0 s 1, Б E21, x 1 291 
MOV bó s 1, s 0, ASR #14 
;把 biquad 1 应 用 于 采样 点 0 


SMLABB x 0, bl s 1, bl a21, x 0 
SMLART 5_0, bl & 2, bl_a21, x 0 
SMLABB х 0, bl = 1, Б1 Б21, Б D 
5МГАВТ x Ü0,bhis 2,blb21,x 0 
MOV bl s 2, s 0, АБЕ #14 
Е biquad 1 应 用 于 采样 点 1 

SLABE х1, bl_s_2, рі _а21, x_i 
SMLABT 8 D, bl,s 1, bl_a21, x 1 
SMLABB x 1, bl s 2, bl b21, s 0 
SMLABT x 1, bl_s_1, bl b21, х1 


MOV bl s 1, s 0, ASR #14 
MOV x O, x O, ASR #14 
MOV x 1, x l, ASR #14 


STRH х_0, [у], #2 
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STRH x1, [yh #2 

BT next sample armóe 
LDMED spl, (b, N, M) 

STRH bo s, 1, [Ь, #-12-4] 
STRH bo s 2, [b, # - 12-2] 
STRH bis 1,[b, f - 4] 
STRH bl s2,[b, # - 2] 
SUB y: y, B, ISLË1 

HOY X, Y 

SUBS M, H, #2 

BGT next biquad arm$e 
LDMFD spl. (04-11, pc] 


表 8.8 显示 了 ARMIE, ARMIOE 和 XScale 的 周期 定时 。 
8.8 АКМУЅЕ 的 IIR AMER 


tag #£+Ë S 0 3 h + + biquad — sample #8 Д 
ARE ж ау 

ARMIOE 45 11.2 

X Scale 30 7.7 


A od X3 16 URGES 

e 把 IR 4H — $71 5 T (biquads) 。 SERERE, 防止 在 TIR 计算 中 溢出 。 为 
了 计算 пк 的 最 高 增益 ,将 一 个 脉冲 作用 于 冲 激 ПК. тй. JE 8.3 节 的 等 
AMH TIPR СЇ]. 

e 使 用 块 IIR 算法 ,把 要 洪波 的 信号 分 成 大 的 帆 。 

e 对 采样 帧 每 次 用 MM 个 二 阶 节 进 行 滤波 。 选 择 M 为 多 许 的 二 阶 节 的 最 大 数目 , 即 可 
以 在 ARM 的 14 个 寄存 器 中 存放 二 阶 节 的 状态 和 系数 。 应 保证 二 阶 节 的 总 数 是 M 
的 倍数 。 

e 和 以 往 一 样 ,要 调整 .优化 代码 ,以 避免 装载 和 乘法 引 人 互 锁 。 


8.5 ”离散 储 里 叶 变 换 





ЖЕН ЖЕЙ DFT Discrete Fourier Transform) 可 以 把 一 个 时 域 信号 т, 转换 为 频 
域 信 号 yx 。 其 对 应 的 北 变 换 (IDFT) 可 以 从 频 域 信号 重建 时 域 信号 。 这 种 方法 在 信和 号 分 析 
和 压缩 中 被 ) TS. h PAARE REMEE FFT (Fast Fourier Trans- 












8 ”数字 信号 处 理 


form, 可 以 非常 高 效 地 实现 DFT) ,这 种 方法 显得 特别 有 用 。 本 节 将 讨论 ЕРТ 在 一 些 
ARM 上 的 有 效 实现 。 | 

DFT 作用 于 长 度 是 N 的 复数 的 时 间 采 样 序列 ,将 其 转换 为 N 个 复数 频率 系数 。 这 里 
AAGE 37) 和 (8. 38) 作 为 其 定义 。 这 些 定义 在 不 同 书 上 会 略 有 不 同 ,因为 一 些 作 者 可 能 使 
用 不 同 的 纳 减 因子 (scaling) 或 正 变换 和 遂 变 换 的 不 同 定义 。 





NA 


y = DFT«GO Bl y, = Dyrt, wy = e "М (8, 37) 


1=0 


z = IDFT,(y) Bl z, = L5 yyw, wy = IN (8. 38) 


NI 


биѕѕәооша IDUBIS юрба 9 


可 见 , 除 了 缩减 因子 和 w 的 选择 外 ,变换 式 是 相同 的 。 因 此 下 面 只 考虑 正 向 变换 。 事 
实 上 快速 情 里 叶 变 换算 法 适合 于 任何 的 wx, 只 要 th 二 1。 这 个 算法 只 有 在 单位 主 极点 
(principal root of unity) wi ALLN) RE n] 38 89 


快速 储 里 叶 变 换 


FFT 的 思想 是 ,用 因子 N 将 变换 分 解 。 假 如 N-RXS fU BAR AUS RSS Ж, 
把 输入 分 成 大 小 为 3 的 及 块 。 换 句 话 说: 
k=nR+m WFn=0, 1,8—1 和 m=01,,R—1 (839 


L= rS +5 +,» = 0.1, R 1 和 sol, 5 — 1 (8. 40) 293 


那么 ， 
R—l 5—1 
yLaR +m] = > У! zrs 十 |] tisto (8, 41) 
r=0 s=Ü 
` 5—1 R—1 
yLaR +m] 一 3 wtwt ( 31 =[rS + jur ) (8. 42) 
s=0 r= 


X8. 4248 N 点 DFT РӘ SAR ADFT: 和 入 个 与 系数 ug ЮА, ЦЕМ 
点 DFTs 的 集合 。 特 别 地 ， 如 果 依 次 设置 


(и[Ё],н[ АЕ +1], ,ul sR 十 К—1]) = ОЕТ»(т[5]+х s + S] esels + (R DS] 
(8. 43) 
ULsR +m] = uul R + m] (8. 44) 
那么 XR +m] = Учта +m] 
所 以 CyLm], УЕ т], .. 8—1)К+ю]) = 
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DFTsCo[ m] R+ m]. iS DR4- mD (8, 45) 


在 实践 中 ,可 以 重复 这 个 过 程 , 以 有 效 地 计算 及 和 3 点 的 DRTs。 当 N 有 很 多 小 的 因 
子 时 ,这 种 方法 工作 得 很 好 。 量 有 用 的 情况 是 当 N 是 2 ЕЧ, 

1. &2 快速 傅 里 叶 变换 

BE М=2„ #К=2°1,5=2, 对 DET 进行 分 解 。 


由 于 DFT;GÍm],v[ R--m]) = tolm] + ¿[R + m];v[m] — lR + m ]) 
可 得 | yim] = ulm] + ати R +m] fi y| R + m] = u[m] — wR4[R-- m] (8.46) 


这 2 个 操作 称 为 基 2 MEE BJ Ў C(decimation-in-time radix-2 butterfly), N 点 
DFT Rt 2r R a DFTs, 接 着 是 N/2 TODOS. 。 针 对 2 的 每 个 因数 ,重复 分 解 К 
2 “的 过 程 。 结 果 是 一 个 包括 a 阶段 的 算法 ,每 个 阶段 计算 N/2 AREER. 

Ж: 当 从 irst] u[ RA т), EAE AS WAKA F. REGERE AG Г), T 
ЖАННИ. ХТА 的 快速 傅 里 叶 变 接 ,所 有 的 蝶 形 运算 都 可 以 同 址 执行 (在 给 入 数组 的 原来 存 情 位 
XO K 3 f A 8 ER [eA R At (bit-reversed) W F AA Aoede [c] BE [s] ki зба BARRI: 
a dte) dp F, 


还 有 为 外 一 种 FFT 分 解 方法 。 可 以 选择 R=2 和 S=> : ,重复 对 第 2 个 因子 进行 分 
解 。 这 就 是 频 域 抽取 法 基 2 2548 (decimation-in-frequency radix-2 transform), 对 于 频 域 抽 
取 法 基 2 ER УЕЙ: 


y[2s] = zs] +z[S+ sl fg vls + 1] = о (z[s] —z[S + s]) (8,47) 


从 ARM 的 优化 观点 看 ,重要 的 区 别 在 于 复数 乘法 的 位 置 。 时 域 抽取 法 与 wR BJ 3835 
在 加 减法 之 前 , 频 域 抽 取 法 与 wi 的 乘法 在 加 减法 之 后 。 一 个 定点 的 乘法 包括 乘法 和 右 移 。 
在 ARM 的 操作 指令 中 , 桶 形 移 位 大 在 加 法 和 减法 之 前 ,所 以 ARM 更 适合 时 域 抽取 法 。 

由 于 基 4 FFT 可 提供 更 好 的 性 能 ,所 以 不 详细 讨论 基 2 РЕТ 的 编码 。 

2, 基 4 快速 情 里 叶 变 换 

除了 把 N TER A BRE N= 以 外 , 基 4 FFT 和 基 2 FFT 非常 相似 。 这 里 使 用 时 域 抽 
取 法 分 解 ,R= 二 4 !1 和 S=4。 那 么 基 4 同形 运算 是 ， 


Gm]; УЕ +m], yL2R+ m]. y[3R + тр = 
DFT4(u[ m ] rwu [R + m],uru[2R + m] wu 3R + т]) (8, 48) 





4 点 DFT ЖИИ E SURE. Ж.Ж вака eat REER, SA 


SULERATOS з 个 复数 乘法 。 基 2 算法 需要 区 ”个 基 2 MER, ТШ ЕЙТЕ 11 
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复数 乘法 。 因 此 , 基 4 算 法 节省 了 25%% 的 乘法 。 

考虑 基 8 变换 有 相当 的 诱惑 力 。 然 而 ,这 只 能 节省 一 个 很 小 百分比 的 玛 法 ,获得 的 将 花 
将 会 被 额外 的 装载 和 存储 消耗 掉 。，ARM 设 有 本 多 的 寄存 器 来 有 效 地 支持 通用 的 基 8 MUE 
运算 。 基 4 蝶 形 运算 正好 合适 :能够 节省 大 量 的 飞 法 ,并 且 巧 妙 地 利用 14 个 可 以 得 到 的 
АКМ AFI. 

为 了 有 效 地 实现 基 4 蝶 形 运算 ,这 里 使 用 一 个 基 2 РЕТ 来 计算 DFT. B GER A E f 
反 转 的 ,可 以 使 用 8 个 ARM 寄存 器 同 址 计算 一 个 4 ОРТ. ФРЖ CEET E РЕТ 
实现 的 重要 部 分 , 它 处 理 4 点 DFT, 同 时 对 输 人 缩减 ,这 可 以 很 好 地 使 用 ARM 桶 形 移 位 
器 。 为 了 防止 溢出 ,这 里 也 把 结果 除 以 4。 


йг RN 4 数据 寄存 器 〈 实 部 
xi RN 5 , Bud (EH) 
xir RN 6 
xl i RN 7 
xir RN В 
x2i RW 8 
х3 г RN 10 
xj i RN 11 
y3.r RN x3 i 
Ti W xir 
4 ARMS FET 


i 
(x0, x1, x2, y3) = DFTA(x0,x2 >> s,xl >> S,X3 >> в)/4 


xÜ = (xÜ + (х2 >> 8) + (xl >> 5) + (xJ s> 8))/4 


{®1= (х0 — іж (х2 >> s) — (xl >> s) + ix (x3 >p в))/4 
:XAT(XD ， (х2 >> в) + (xl >x в) - (x1 >> в))/4 


iy37 (х0 + is (х2 >> 8) - (xl >> s) — iw (x3 >> в))/4 


; 


MACRO 

C FFT4 $s 

:(х2,х3) = (х2 + x3, 32-7 x3) 

ADD X2 r,32 r, x3 r 

ADD X2 i, x2 i,x3i 

SUB x3 r, x2 r, x3 r, LSL 1 
SUB ХЗ i, x2 i, x3 i, LSL#1 


i (x0, x1) = (zÜ + (xl >> в), x0 - (х1 >> 5))/4 
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2 MOV x0 r, х0 г, ASR#2 
之 HOV xO i, х0 i, ASR 间 2 
ADD |» x0 r,x0 r,xl r, RH (2+ $ 8) 
š ADD x0 i, х0 i, xl i, ASR# (2+ $3) 
: SUB xl r, xÜ r, хі г, АҢ (1+ $8) 
С) SUB xl i, х0 і, xl 1, АЕВ (1+ $8) 
9 j(X0,X2) = (XÜ + (X2 >> 5)/4, x0 — (x2 >> 5/4) 
E AUD XÜ г, х0 г, x2 r, ASRĦ (2+ 5 5) 
9 ADD xD i, хй_1,х2_1, ASR# (2+ 5 8) 
vt SUE x2 r, xÜ г, x2 r, ASR (1+ $5) 
o SUB x2 i, ХО i, x2 i, ASR# (1+ 5 а) 
= (xl, y3) = Gd — ix Gd >> s)/4, xl + ie G3 >> в)/4) 
а ADD xi r, xl ү, x3 i, ASR (24 $3) 
SUB xl i, хі i, x3 r, АЗЕФ (2 + Š s) 
SUB y3 r, хі г, x3 i, ASR# (1 + 5 5) 
ADD үзі, xli, x3 г, АЕ (1+ $ s) 
MEND 


这 里 还 要 使 用 宏 C_LDR A CSTR 来 装载 和 存 情 复数 值 。 这 可 以 简化 例 8.17 和 8.18 
中 的 FFT ERRE. 


1 复数 装载 x= Га], at= offset 
MACRO 

C трд $x, $a, S offset 
LDRSH $x i [ Sa, #2] 
LDRSH  Sx._r, [$a], $ offset 


296 


;复数 存储 ，[a] = x, a t= offset 
HRCRO 

CSIR $x, ба, Soffset 
5ТЕН $x. i.[$a, #2] 
STRE $x г, [$a], $ offset 
MEND 


[918.17] 对 任何 ARMv 体系 结构 的 处 理 器 实现 一 个 16 位 基 4 FFT, 

这 星 假设 序列 点 数 为 n=4. WE N 是 2 的 奇数 赛 , 那 么 需要 替换 例 程 , 开 始 阶段 要 用 
一 个 基 2 GE 8 的 过 程 ,而 不 直接 用 基 4 过 程 ， 

代码 使 用 了 一 个 技巧 ,只 用 3 个 实数 乘法 就 实现 了 一 个 复数 乘法 。 如 果 < 十 这 是 一 个 
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复数 数据 项 ,并 县 c 十 is 是 一 个 复数 系数 


那么 (a ір) Сс із) = [(5—2as-- atc s)] + [(6—a)s + b(c 5) ] (8.49) 
(а +ib)(e+ is) = [Га —b)s+a(c—s)]+ [Ga —5)s+ b(c + s)] (8,50) 


№ c 十 is 一 ee 时 ,这 些 分 别 是 做 前 向 和 反 向 基 4 OE IS MR PADRE RRE. 给 
定 输入 с—з› +, cts, a 和 ,可 以 使 用 减法 、 蔷 法 和 2 个 腾 累 加 计算 上 面 2 个 式 子 。 在 系 
数 查 我 表 中 存储 (ec 一:，5) ,在 需要 时 计算 "十 5， 前 向 和 反 向 变换 可 以 使 用 同样 的 表 。 

使 用 下 面 的 代码 在 ARMv 体系 结构 上 处 理 基 4 变换， 序列 长 度 N 必须 是 4 0938. 
算法 实际 上 计算 了 DFTw (xz)/N ,额外 的 缩减 因子 N 防止 溢出 。 算 法 使 用 前 面 定 义 的 宏 C_ 
FFT4 和 存 -到 的 宏 。 


ЖИИ а= (zr t die xi) ж (ог іж ei) 


1 Х=хг ixi 
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‚ W= (сг- сі) + ixsci 


MACRO 
C HULSE $a, $x, би 
SUB tl, $х._1, Š x._r ;(xi— xr) 
MUL tû, tl, $*w. i ;(xi- xr) * ci 
ADD tl, Sw. г, $w._i, LSL#1 :crt+t ci) 
MLA $a. i, $x, i, $w. г, 0 ixi cr- XI x Cd 
HLA $a. r, 5х. г, ti, tú xr CF xis cl 
MEND 297 

y BRNO ЖНЯЯ У) 

c Bo ARAH 

х 81 — ! 输 和 人 复数 数组 x[] 

N RBR2 ;采样 点 数 (2 Ж) 

5 А92 — AH 

R КЗ 4 每 块 中 采样 点 的 数目 


xür è N4 ;数据 寄存 器 { 实 部 ) 
RO i RN5 Iris d RECORD 


xl г RN 6 
x1 i BN 7 
x2 r RN в 
x2 i W9 
X3 r RN 10 


x3 i RN 11 








ARM RARRAHA 


yl r RN х3 i 

y3. i RN x3 г 

+0 RN 12 ;临时 寄存 器 (scratch register) 
ti RN 14 





fft 16 агибт 
STMED — spl, {ra~ r11, lr} 
MOV tO, #0 

first stage агл 
:第 一 阶 丰 装载 和 位 反 转 
ADD ti,x, t0, LLH 2 
CLDR х0, tl, N 
CLOR x2, 61, N 
C LDR xl, tl, N 
CIDR x3, t1, N 
C FET 0 
C SIR х0, y, #4 
C STR xl, y, #4 
CSIR х2, y, #4 
CSTR ył, y, #4 
EOR 10, tO, N, LER З 
TST tû, N, LSRH 3 
BNE first stage arnüm 
EOR tû, tO, N, LSR# 4 
TST tO, N, LERH 4 
BNE first stage arm9m 
MOV +1, N, 158# 5 

bit, reversed count, aru'jm 
EOR t0, tO, t1 
TST tO, tl 
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BNE first stage armUm 

MOVS tl, tl, 15Е#1 

BNE bit reversed count агпош 
;完成 第 一 阶段 

SUB x, ү, N, ISLd2 

HOY R, #16 


;void fft 16 arm9m(short x y, short є x, unsigned int N) 


;位 反 转 计数 器 


;第 3 位 增加 
;从 顶部 


;第 4 位 增加 
;从 顶部 


;第 5 位 增加 
;位 递减 bits downward 


;xs 工作 缓冲 
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MOVE S, H, LSR# 4 

LDMEQFD sp!, [r4 ~ rll, рс} 

ADR c, fft table arm9m 
next stage arm9m 

13= XB 

;R= 每 块 的 采样 点 数目 

STMFD spl, fx, S) 

ADD tO, R, R, LSL# 1 

ADD x, X, LÜ 

SUB 8, 8, #1 << 16 
next block атин 

AD 5,5, В, 151# (16 - 2) 
next butterfly arm9m | 

18 = ((number butterflies Lett 一 13 «« 16) 

1 f (number of blocks left) 

CIDR x0,x, -R 

CIDR x3, c, H4 

C MULOBm x3, х0, x3 

СЫН х0, х, -R 

C LDR х2, с, #4 

C MULO9m x2, xD, x2 

C LDR х0, х, -R 

C LDR хі, с, #4 

C MULSm xl, х0, xl 

C LUR х0, x, #0 

CHN HM :系数 是 014 格式 

C STRE х0, х, Е 

CSR xl, х, R 

C SIR х2, x, R 

CSTR уз, x, #4 

SUBS 5, 5, #1 «« 16 

BGE next hutterfly агюл 

ADD tQ, R, R, ISL d 1 

Ann x, x, 10 

SUB S, 8, #1 

MOVS +1, S, LS, 3E 16 

SUBNE с, с, tQ 


бивѕәоо риб OBa 8 
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BNE next block armgm 
LDMFD spl. іх, 5} 
HOV R, R, LSL# 2 GER qi 4 fà (quadrouple block size) 


MOVS S, 5, LSR1F 2 iquarter number of blocks 
BNE next stage агцот | 
LDMFD spl, ír4- г11, pc) 


fft table arm9m 
EET twiddle table of triplets E(3t), ЕСЫ), ECZt) 
{еге E(t) = (cos(t) – sin(t)) + ix sintt) at 014 
Н 216 = 2 * PIX КИН for k-0,1,2,..,N/4—-1 
DCH 0x4000,0x0000, 0x4600,0x0000, 0x4000,0xD0Q0 
DCH üxdd5d,0x3b21, 0х22а3,0х187е, 0x0ü000,0x2d41 
DCN Üxa57e,0x2ddl, 0х0000,0х2941, 0хс000,0х4000 
DCH üxdd5d,0xe782, üxddsd,Ox3b21, üxa57e,0x2d41 
N= 64 t2 2x PI* kK/8 for k-0,1,2,..,N/4- 1 
DOH 0Ox4000,0x0000, 0x4000,0x0000, Qx4000.0x0000 
DCH 0x2aaa,0x1294, 0x396b,0x0646, 0x3249,0xü0c]c 
DCH 0x11a8,0x238e, 0x3249,0x0c7c, 0х22а3,0х187е 
DCH Ox£721,023179, Ох?ава ,0х1294, Ox118,0x238e 
DOW üxdd5d,Qx3b21, 0x22a3,0x187e, 0х0000,0х2041 
DCH 0xc695,0x3fbl, OxladB,0xie2h, 0xee58 , 023537 
DCW ûxbdbe,Ox3ec5, Ox11aB8,0x238e. Oxdd5d, Ox3b21 
DCH 0xa963,0x3871, Ox0Sdf,0x289a, Oxcdb7,0x3ec5 
DCH )ха57е,0х2041, 0х0000,0х2441, OxcUQ0,0x4000 
DCH 0xa963,0xile2b, 0xf721,0x3179, Oxbábe,Dxzjec5 
DCH Oxbdbe,0x0c7c, 0xee58,0x3537, Oxac61,0x3b21 
DCN 0xc635,0xf8ba, Üxe5ba,0x3871, Qxa73b,0x3537 
рси 0xdd5d,0xe782, Oxdd5d,0x3b21, 0xa57e,0x2d41l 
DCW 0x£721,0xd766, üxd556,0x3d3f, 0xa73b,0x238e 
DOW 0x11a8,0xcac9, Oxcdb/,0x3ec5, Охасб1,0х197е 
DCW Ох2ааа,0хс2с1, Oxc695,0x3fbl. Oxb4be.0xüc7c 
187 256 t2 * PTS kK/N = 0,1,2,..,N/4-1 
:如 果 需 要 可 以 继续 


上 面 的 代码 分 2 部 分 。 第 一 阶段 不 需要 任何 复数 运算 ,以 位 反 转 的 顺序 从 源 数 组 x 中 
读 取 数据 ,接著 使 用 基 4 蝶 形 运算 ,并 写 到 目标 数组 yi 在 目标 缓冲 的 原址 处 理 剩余 的 阶段 ， 
在 每 个 阶段 交 痊 源 和 目标 缓冲 ,不 使 用 位 反 转 实现 FFT 是 可 行 的 。 然 而 ,在 一 般 阶 段 
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循环 中 这 需要 更 多 的 寄存 器 ,而 这 些 寄 存 器 是 无 法 得 到 的 .位 反 转 的 开销 是 非常 小 的 ,总 的 > 
说 来 ,每 个 输入 采样 点 的 开销 小 于 1,5 个 周期 。 & 
前 面 代码 的 基准 测试 结果 可 参考 8.6 节 。 a 
[58.18]. 实现 一 个 在 ARMv5TE ШААН (hi ARM9E) 的 基 4 ЕРТ, КА 
对 于 ARM9E ,不 需要 利用 例 8. 17 中 的 技巧 来 把 一 个 复数 乘法 简化 为 3 个 实数 乘法 。 Э 
用 正常 的 方法 ,使 用 单 局 期 16x16 位 的 乘法 实现 复数 乘法 更 快 。 这 也 意味 着 可 以 使 用 一 个 P 
Co 0 015 系数 表 , 而 且 变换 要 比例 S. 17 有 稍 高 的 精度 。 这 里 省 略 了 寄存 器 的 分 配 , 因 | 9 
为 它 与 例 8. 17 是 一 样 的 。 D 
СЗЯ а = (xr ix yi) ж (er- ix ei) El 
; X=xr + ix xi (POE fE 22 fu Ph BQ 2 4 16 fz) 
1 waor + ixci( 封 装 在 32 位 中 的 2 个 16 位 ) 
MACRO 
C MUL9e $a, $x, $W 
SMULBT tQ, 5х, Sw xr # Cl 
SMULBB ба. r, 5x, $w XI x CI 
SMULIB $a. i, $x, $w ixi x cr 
SHLATT $a. г, $x, $w, Sa. г xr*ertxisci 
SUB $a. i, $a. i, tO xi * сг xr * ci 
MEND 
svold fft 16 arm9e(short ж y, short * x, unsigned int N) 301 
fft 16 arm3Je 
SIMFD spl, {ré~ ril, lr} 
HOV tO, #0 ИШЕН ИЕН 
MVN R, # 0х80000000 Е = ÜxTFEFEFEF 
first stage агше 
;第 一 阶段 装载 和 位 反 转 
ADDS +1,х,+0,151{}2 ;tl = &éx[ £O ] 并 清除 进位 


CIDR x0,tl,N 
CLDR x2,tl,N 
C LDR xl, tl, N 
CLDR x3, tl, N 
C FFM 0 

C STR x0, y, #4 
CSTR xl, y, фа 
C STR x2, y, #4 





ARM ЛЖЕТ 





MOV R, #16 

MOVS S, N, LSg dt 4 

LDMEQFD sp!, ir4- r11, ре) 

ADR c, fft table arm9e 
next stage arm9a 

1S= 块 的 教 目 

;R= 每 块 采样 点 的 数目 

STHED — spl, {x, 8} 

ADD to, R, R, ISL E 1 

ADD x, x, tO 

SUB 8, 8, #1 << 16 
next block armüe 

MD — S,S,R, 151# (16 - 2) 
next butterfly armde | 

З (MMM - 1) << 16) 


P C STR уЗ, v, #4 

= ;位 反 转 增加 模块 (8/4) 

ge RSC tO, tO, N, LSR #2 t0 = (N/4) - £07 1 

Т CLZ tl, t0 ;查找 前 导 1(find leading 1) 
3 EORS — tO, tO, R, ASR tl “Ж” LENT 
= BNE first stage arm9e ШЕН 0, ДАУ 
< ;完成 第 一 阶段 

S SUR x, y, N, LSL #2 ;x > ТЕ 

$ 

um 

0) 

É. 

位 

(D 
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‚+ 剩余 块 数 ) 
LDR x2 r, [x], -R ;数据 打包 
LDR x2 i,[c], #4 ;系数 打包 


LDR xl г, [х], -R 
LDR xl i, [c], #4 
LDR xà r,[x], -R 
LIR xQ i, [c], #4 
C MUIIS3e x3, x2 г, x2 i 
C MUl9e x2, xl г, xl i 
C MUL29e xi, к0 г, xü i 
СЮЕК x0, x, #0 

C FFT4 15 i 系数 是 015 格式 
С STR х0, х, В 

C STR xl, х, R 
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CSTR х2, х, А 9» 
C SIR уЗ. х, #4 & 
SUES 5,5, #1 << 16 a 
BGE next butterfly аге e 
ADD t0, R, R, LSL iE 1 (Q 
ADD X. x. tO à 
SUB 5,5, #1 y 
MOVS tl, S, LSL 16 8 
SUBE с, с, t0 9 
BNE next block arm?9e 5 
LDMED spl, (z, 8) e 
моу R, В, ISLE? RR EF BI 4 fij(quadrouple block size) 
MOVS 5, S, LSR#2 ЖК 1/4 
HNE next stage атте 
LDMFD spl, (rá- ril, pel 
fft table аглде 

{КЕТ EIE, Et), ECC), Е(24) 
;E(O = cos(t) + ix sin(t) 2007 015 
;R-16t-2*PI&k/N(kz20,1,2,..,8/4- 1) 
ОСН Ox7fff,O0x0000, Ox?fff,0x0000, ОхТЕЕЕ, 0х0000 

303 


DH 0х30Ес,0х7642, 0х7642 ,0х30с, Ox5aB2,0x5aB2 
DCH Oxa57e,0x5aB2, Qx5a82,0x5a82, 0х0000, Dx7EEF 
DCH 0x88be, 0xc£04, 0х30#с,0х7642, Оха57е,0х5а82 
;N= 64 += 2 PI < КН (к= 0,1,2,..,М4- 1) 

РСМ Ox7fff,Ü0xOD00, Сх7ЕҒЕ,0х0000, 0х7ЕҒЕ, 0х0000 
ПСИ 0x7a7d,0x2528, 0х7#62,0х0с0с, 0х708а,0х18#9 
DCH Охбабе,0х4714, 0х748а,0х18#9, 0x7642,0x30fc 
ОСМ 0х5134,0х62#2, 0x7a7d,0x2528, Охбабе,0х4710 
DCH 0х30#с,0х7642, 0x7642,0x30fc, 0х5а82,0х5а82 
DCH 0х0сВс,0х7Е62, 0х70е3,0х3с57, 0х4714,0хбабе 
DOW 0хе707 ,0х708а, О0хбабе,0х41714, Ox30fc, 087642 
DCH 0xc3a9,0x70e3, 0х62#2,0к5134, 0х18ғ9,0х708а 
DCH Оха57е,Ох5ай2, 0х5а82,0х5а82, 0х0000,0х7ҒҒЕ 
ІСН 0x8f1d,0x3c57, 0х5134,0к62#2, 0хе707,0х708а 
DCH 0х8276,0х18#9, 0х4714,0хбабе, Oxcf04,0x7642 
DCN 0х809е,0х#374, 0х3с57,0х70е3, ОхЬВез,Охбабе 
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DCH 0x89be ,0Dxef0d4 ，0x30fe DOx7643，Dxa578y0x5ab2 
DCH Dz9d0e,Oxaece, 0x2528,0x7a7d, 09592, 0x471d 
DOW бхЬВе3,0х95592, 0х18#9,0х748а, OxB89be,0x30fc 
DCH ÜxdadB8,0x8583, üx0cBc,Ux7f62, 0x8276,0x18f9 
:Н= 256 Ez 28 PL S КУН (E -0,1,2,-:,8/4—- 1) 
1" 如 果 需 要 可 以 继续 


再 次 说 明 , 这 种 方法 实际 上 计算 DET (zx)/N, 所 以 不 会 有 洲 出 的 可 能 。 上 面 代码 的 基 
准 测试 结果 可 参考 8. 6 Th. 


注意 : 在 ARMY5E 上 使 用 CLZ 指令 来 加 退 性 反 转 中 需要 的 计 雪 操 作 ， 


小 #£# 到 了 的 中 更 . 

e 使 用 基 4 .时 域 抽取 法 的 FFT 实现 。 如 果 序 列 点 数 不 是 4 的 每 ,那么 在 第 一 阶段 使 
用 基 2 或 基 8, 

e 在 算法 开始 , 当 为 第 一 阶段 读数 据 时 ,执行 位 反 转 。 尽 管 可 以 不 用 位 反 转 执行 FFT， 
但 那样 通常 会 在 内 循环 中 需要 更 多 的 寄存 器 。 

€ 如 果 一 个 标量 的 条 法 需要 超过 1 个 周期 ,那么 使 用 类 做 例 8. 17 的 方法 把 一 个 复数 
乘法 分 解 成 3 个 标量 飞 法 。 这 是 在 ARMOTDMI 上 机 16 位 FFT 或 在 ARM9E 上 
fit 32 位 FET 的 情况 。 

e 为 了 防止 溢出 ,在 每 次 基 上 阶段 ,用 做 缩减 。 或 者 确定 N 点 DFT 的 输入 有 NN f 
的 增长 空间 。 这 通常 是 实现 32 位 FFT 的 情况 。 


8.6 总 结 


-人 一 


表 8.9 和 表 8.10 总 结 了 本 章 所 介绍 的 程序 的 基准 性 能 指数 (benchmarksy。 一 般 可 以 
通过 展开 《unroiling) 进 一 步调 整 这 些 代码 ,或 为 特殊 应 用 编程 。 然 而 ,这 些 数据 将 提供 一 个 
TEX: Н АКМ 系统 获得 固定 的 DSP 性 能 的 有 用 和 参考。 这些 基准 性 能 指数 包括 所 有 的 装 
载 ,存储 和 循环 ,并 假定 是 0 等 待 存储 器 或 在 有 cache 并 命中 的 情况 。 

本 章 讨论 了 在 ARM 上 有 效 实现 定点 DSP 算法 的 途径 ,详细 研究 了 4 种 基本 的 算法 ， 
A Hk FIR 滤波 器 , 块 HR 滤波 器 和 离散 铺 里 时 变换 ， 同时 考虑 了 在 不 同 ARM 体系 结构 
和 实现 中 的 区 别 。 









8 数字 信号 处 理 

















Qo 
38.9 ARM BEER TIERE TENE 
w 
w. BAR — IBAFRAXE 32BAFR3SEE 。 16 位 块 Кай е 
š (cycles/lap) ( cycles/ tap) (cycles/tap) Ccycles/biquad) б 
с 
ARM7TDMI 7.65 5.2 8.0 22.9 С 
ARMSTDMI 7.0 4, & 8.3 22. 0 7 
StrongARM 4, 8 3.8 5,2 16, 5 290 
ARM9E 2.5 1.3 4.3 8.0 © 
Xscale 1,8 1, à 3.7 7,7 Ф 
gr 
ы 
Q 
3X 8.10 ARM FFT 基准 性 能 指数 
1843 k FFTCE 45 ARMSTDMK cycles/FFT) ARMBE(cvcles/ FFT) 

84 点 3 524 2 480 

256 4 19 514 13 184 

1024 99 946 . 66 196 

4 096 Ë 487 532 318 878 
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9 异常 和 中 断 处 理 m 


异常 和 中 断 处 理 是 宜人 式 系统 的 重要 核心 部 分 ,它们 负责 处 理 错误 ,中 断 和 其 它 由 外 
部 系统 触发 的 事件 。 高 效 的 异常 处 理 能 够 大 大 改善 系统 的 性 能 ;同时 ,确定 一 个 好 的 处 理 方 
法 的 过 程 , 也 是 复杂 ,充满 挑战 而 有 乐趣 的 。 

本 章 将 介绍 异常 处 理 的 理论 与 实践 ,特别 是 ARM 处 理 器 对 中 断 的 处 理 。ARM 处 理 器 
有 ?7 种 可 以 使 正常 指令 顺序 中 止 执行 的 异常 情况 :数据 中 正 、 快 速 中 断 请 求 .中 断 请 求 , 预 取 
指 中 正 ,软件 中 汤 、 复 位 及 未 定义 指令 。 

本 章 分 为 3 个 主要 部 分 ， 


e RAE 包括 ARM 处 理 器 处 理 异 常 的 一 些 特定 网 节 ; 

e 中 新 АКМ 把 中 断定 义 为 一 类 特殊 的 异常 ,本 节 讨 论 了 中 断 请 求 的 使 用 ,并 介绍 了 
一 些 有 关中 断 处 理 的 常用 术语 、 特 征 和 机 制 ; 

e FELETTE ”最 后 一 节 提 供 了 一 整套 中 断 处 理 方法 ,包括 对 庆 每 种 方法 的 实现 
例子 。 
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9.1 FANS 





异常 是 需要 中 止 指令 正常 执行 的 任何 情形 ,例如 ARM 内 核 产 生 复位 , 取 指 或 存储 器 访 
问 失 败 , 遇 到 未 定义 指令 ,执行 了 软件 中 断 指令 ,或 者 出 现 了 一 个 外 部 中 断 等 异常 处 理 就 
是 处 理 这 些 异 常情 况 的 方法 。 

大 多 数 异 党 都 对 应 一 个 软件 的 举 沉 你 吾 凑 序 一 一 一 个 在 异常 发 生 时 执行 的 软件 程序 。 
例如 ,一 个 数据 中 止 异常 就 有 一 个 数据 中 止 处 理 程序 。 这 个 处 理 程序 首先 确定 异常 产生 的 
原因 ,然后 为 该 异常 提供 特定 的 服务 。 服 务 可 以 发 生 在 处 理 程序 内 部 ,也 可 以 跳 转 到 一 个 专 
门 的 服务 程序 。 复 位 异常 是 一 个 特例 , 它 用 来 初始 化 一 个 嵌入 式 系统 ， 

本 市 将 介绍 以 下 的 异常 处 理 主题 ， 


€ ARM 处 理 器 模式 及 异常 
e nisi 

e 异常 的 优先 级 ; 

e 链接 寄存 器 偏 移 。 
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9.1.1 ARM 处 理 器 模式 及 异常 


ЖЭ. 列 出 了 ARM 处 理 器 的 备 种 异常 。 每 种 异常 都 导致 内 核 进 入 一 种 特定 的 模式 ， 
此 外 ,可 以 通过 编程 改变 cpsr, 进 入 任何 ARM 处 理 器 模式 。 用 户 和 系统 模式 是 仅 有 的 可 不 





ARM 谋 入 式 系 统 开发 


通过 相应 异常 进入 的 2 种 模式 , 换 句 话说 ,要 进入 这 2 种 模式 ,必须 修改 cpsr。 
当 一 个 异常 导致 模式 的 改变 时 ,内 核 自 动 地 : 
@ 把 cpsr 保存 到 相应 异常 模式 下 的 spsr; 
e 把 pc 保存 到 相应 异常 模式 下 的 lr; 
e 设置 cpsr 为 相应 异常 模式 ; 
e 设置 pc 为 相应 异常 处 理 程序 的 入 口 地 址 。 
表 9.1 ARM 处 理 器 异常 及 其 对 应 的 模式 


opino SJedaoleAed uuƏIsSsÁS угу 


# 常 Ж X 主要 目的 

快速 中 断 请 求 FIQ 快速 中 断 请 求 处 理 

中 断 请 求 IRQ 中 断 请 求 处 理 

SWI 和 复位 SVC 操作 系统 的 受 保护 模式 

预 取 指 中 止 和 数据 中 止 abort 虚 存 和 (或 ) 存 储 器 保护 处 理 
未 定义 指令 undefined 软件 模拟 硬件 协 处 理 器 


图 9. 1 给 出 了 一 个 异常 及 其 相应 模式 的 简化 示意 图 。 
ЖЖ: 当 一 个 异常 发 生 时 ,ARM 处 理 器 总 是 切换 到 ARM 状态 ( 即 非 Thumb RA). 
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图 9.1 异常 及 其 对 应 的 模式 
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9.1.2 向 量 表 


第 2 章 介 绍 了 向 量 表 一 一 异常 发 生 时 ,ARM 内 核 跳 转 地 址 组 成 的 表 。 这 些 地 址 通常 
包含 以 下 形式 的 跳 转 指 令 。 

è Biaddress) -一 一 这 条 分 式 蓄 什 实 现 了 相对 于 pc й x BERE 

è LDR ре, рс, # offset -RRT IE ER О Ti Rb BB E PF Chandler? f] À H Bit Al 
从 存储 器 装载 到 pc。 该 地 址 是 一 个 32 fro s xp hb E SEE EIS] CER XT. 由 于 
有 额外 的 存 情 器 访问 ,装载 这 4 字 节 的 绝对 地 址 会 使 分 支 跳 转 到 特定 处 理 程 序 稍 有 
延迟 。 不 过 ,可 以 用 这 种 方法 , 跳 转 到 存储 空间 内 的 任意 地 址 。 

€ LDR pc,Lpc, # 一 0xfft0j] 一 一 这 条 过 存 震 装 袁 背 令 把 一 个 特殊 的 中 断 服务 程序 地 址 
从 地 址 0xfffff030 装载 到 pc。 只 有 当 向 量 中 断 控 制 器 存在 时 (VIC PL190), 才 能 使 
用 这 条 特殊 的 指令 。 

€ МОУ pc, # immediate — P #move 戎 令 把 一 个 立即 数 复 制 到 pc。 它 可 跨越 全 部 
的 地 址 空间 ,但 要 注意 受到 地 址 对 齐 问 题 的 限制 。 这 个 地 址 必须 是 一 个 由 8 位 立即 
数 循 环 右 称 偶 数 次 得 到 的 。 


也 可 以 在 向 量 表 中 使 用 其 它 类 型 的 指令 。 例 如 FIQ 处 理 程序 可 以 从 地 址 贪 移 十 0xle 
处 开始 ,这 样 FIQ 处 理 程 序 就 可 以 不 用 跳 转 ,立即 从 FIQ 向 量 地 址 处 开始 执行 ,因为 它 位 于 
А ВЕ. ВНЕСЕ ре 跳 转 到 一 个 特定 地 址 , 凡 便 处 理 某 个 特定 的 异常 ， 
表 9.2 列 出 了 每 种 异常 所 对 应 的 模式 和 向 量 表 含 移 量 ， 
$2 疝 量 表 及 处 理 器 模式 
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+ * Ж 5 ws tA 


y ü SVC +0х00 
未 定义 指令 UND +0х04 
iE TN OWD SYC +0х08 
预 取 指 中 止 ABT +0х0е 
数据 中 止 ABT 40х10 
未 分 本 一 +0х14 
IRQ IRQ T0318 
FIQ FIQ +0х1с 





[55.1] НЭТА, ЖЕО A Hh E — £B 
转 到 未 定义 处 理 程序 的 指令 。 其 它 向 量 使 用 指令 LDR 装载 pc, 以 实现 间接 地 址 跳 转 。 
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ЖЖ. FIQ 处 理 程序 也 使 用 指令 LDR 把 地 址 装载 到 pe, 而 并 没有 利用 它 特殊 位 置 ( 向 量 表 最 后 一 个 ) 
的 好 处 处 理 程序 的 入 口 可 以 直接 放 在 FIQ 向量 入 口 地 址 处 。 





0x00000000 : 0xe59ffa38 RESET : >ldrpc, [рс, #reset] 
0x00000004 : 0xea000502 UNDEF : b undinstr 


0x00000008 : Oxe59ffa38 SWI : ldrpc,[pc, #swi] 
0х0000000с : OxeSOffa38 PABT : ldrpc,[pc, #prefetch] 
0x00000010: 0xeS9ffa38 DABT : — 1йгрс,[рс, &data] 
0x00000014 : 0хе59#а38 — : ldr pc, [pc, fnotassigned] 
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图 9.2 向 量 表 举例 


9.1.3 异常 优先 级 


异常 可 以 同时 发 生 , 因此 处 理 器 必须 采取 一 种 基于 优先 级 的 机 制 。 表 9. 3 列 出 了 
ARM 处 理 器 的 各 种 异常 及 其 对 应 的 优先 级 。 例 如 ,复位 异常 的 优先 级 最 高 ,处 理 器 上 电 时 
发 生 复位 异常 。 所 以 , 当 产 生 复位 时 , 它 将 优先 于 其 它 异 常 得 到 处 理 。 同 样 , 当 一 个 数据 中 
止 发 生 时 , 它 将 优先 于 除 复位 异常 外 的 其 它 所 有 异常 。 优 先 级 最 低 的 2 种 异常 是 ;软件 中 断 
和 未 定义 指令 异常 。 可 以 通过 设置 cpsr 中 的 I 位 或 下 位 来 禁止 某 些 异常 ,如 表 9.3 所 列 ， 

表 9.3 异常 优先 级 每 一 种 异常 将 按照 表 9. 3 中 设置 的 优 
先 级 得 到 处 理 。 下 面 从 最 高 优先 级 异常 开 
始 , 逐 一 介绍 这 些 异 常 是 如 何 被 处 理 的 。 
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# Y 优先 级 та 下 位 





复位 
TS " 复位 异常 是 优先 级 最 高 的 异常, 一 日 
数据 中 止 2 1 = i 
复位 信号 产生 ,总 是 会 发 生 复位 异常 。 复 
快速 中 断 请 求 3 1 1 - 
中 断 请 求 A ; Е 位 异常 处 理 程序 对 系统 进行 初始 化 ,包括 
预 取 指 中 止 5 1 2 配置 存储 器 和 cache, 外 部 中 断 源 必 须 在 
зрна NUR IRQ 3È FIQ 中 断 允 许 之 前 初始 化 ,以 避免 
未 定义 指令 6 i ` 2 在 还 没有 设置 好 相应 的 处 理 程序 前 产生 中 
断 。 复 位 处 理 程序 还 要 为 所 有 处 理 器 模式 
设置 堆栈 指针 。 


在 执行 复位 处 理 程序 的 开头 几 句 指令 时 ,假设 不 会 有 别 的 异常 或 中 断 发 生 。 编 程 时 应 
避免 SWI、 未 定义 指令 及 存储 器 访问 导致 的 中 止 , 即 处 理 程序 应 仔细 实现 ,以 避免 其 它 异 党 
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(EK Ж, 

数据 中 下 异常 发 生 在 存储 控制 器 或 MMU das Wild f XXE BEER PR Bb hk BP СВХ Е 
给 定 的 一 个 地 址 ,没有 对 应 的 物理 存 依 器 存在 ) ,或 者 当前 代码 在 没有 正确 的 访问 权限 时 , 试 
图 读 / 写 存储 器 ， 由 于 没有 禁止 FIQ 蜡 常 ,在 一 个 数据 中 止 处 理 程序 中 ,可 以 发 生 FQ R 
常 。 当 FIQ 服务 完成 后 ,控制 权 交 还 给 数据 中 止 处 理 程序 。 

快速 中 断 请 求 (FIQ}) 异 常 发 生 在 一 个 外 部 设备 把 内 核 的 FIQ 线 * 置 为 uFIQ 时 。FlQ 
异常 是 优先 级 最 高 的 中 断 。 内 核 在 进入 ЕТО 处 理 程序 时 ,把 FIQ 和 IRQ 都 禁止 了 ,因此 在 
何 外 部 中 断 源 都 不 能 再 次 中 断 处 理 器 ,除非 在 软件 中 重新 允许 了 IRQ 和 (或 ?FiQ。 应 该 他 
细 设 计 FIQ 处 理 程序 (对 于 数据 中 止 ,SWI 和 IRQ 也 一 样 ) ,以 便 高 效 地 为 异常 处 理 服务 。 

中 断 请 求 (IRQ) 异 常 发 生 在 一 个 外 部 设备 把 内 核 的 IRQ 线 置 为 niRQ 时 。IRQ 异常 
是 第 二 优先 级 的 中 断 ，FIQ 异常 和 数据 中 止 异 常 都 没有 发 生 时 ,IRQ 处 理 程序 才能 够 进 
А. Ж А. IRQ 处 理 程 序 时 ,内 核 禁 止 IRQ 异常 ,直到 当前 中 断 源 被 清除 。 

预 取 指 中 止 异 常 即 试图 取 指 令 而 导致 存储 器 访问 失败 的 情形 。 在 流水 线 中 ,如 果 某 条 
指令 (试图 取 的 指令 ) 的 "执行 ?阶段 没有 优先 级 更 高 的 异常 出 现 ,将 发 生 预 取 指 中 止 异 常 。 
.在 进 人 相应 的 处 理 程 序 时 ,内核 禁止 IRQ 异常 ,而 保持 FIQ 不 变 。 如 果 人 允许 了 FIQ, 并 且 发 
生 了 一 个 FIQ 异常 , 则 它 可 在 处 理 预 取 指 中 止 过 程 中 得 到 响应 ， 

软件 中 断 (SWT 异常 发 生 在 执行 SWI 指令 , 旦 没有 更 高 优先 级 的 异常 标志 置 位 的 情况 
下 。 在 进入 相应 处 理 程序 时 ,cpsr 将 被 设置 成 管理 模式 ， 

AUR ЖЮ {# НИК Ж SW] 调用 , 则 必须 在 跳 转 到 了 伐 套 的 SWI 之 前 ,保存 链接 寄存 器 rl4 
和 spsr 8. HGB S ERR, 

当 一 条 不 属于 ARM R Thumb 指令 集 的 指令 到 达 流水 线 的 执行 阶段 时 , 若 此 时 没有 其 
它 异 常 发 生 ,就 会 产生 未 定义 指令 异常 。ARM 处 理 器 会 “询问 ” 协 处 理 器 ,看 它 能 否 将 其 当 
作 一 条 协 处 理 器 指令 来 处 理 。 由 于 协 处 理 器 在 流水 线 之 后 ,所 以 指令 确认 可 以 在 内 核 的 执 
行 阶段 进行 。 如 果 这 条 指令 不 属于 任何 一 个 协 处 理 器 , 则 会 产生 未 定义 指令 异常 ， 

SWI 和 未 定义 指令 异常 蛮 有 相同 的 优先 级 ,因此 不 能 局 时 发 生 。 换 句 话 说 , 正 丰 执行 
的 指令 不 可 能 既是 一 条 SWI 指令 ,又 是 一 条 未 定义 指令 ， 


9.1.4 ”链接 寄存 器 偏 移 
当 一 个 异常 发 生 时 ,链接 寄存 器 就 设置 成 基于 当前 pe 值 的 一 个 特定 地 址 ， 例 如 , 当 发 


生 一 个 IRQ 异常 时 ,链接 寄存 器 Ie 指向 最 后 执行 的 指令 地 址 加 上 8。 应 确保 异常 处 理 程序 
^S Ir AX Ir 保存 的 是 异常 处 理 程序 的 返回 地 址 。 只 有 在 当前 指令 执行 完毕 后 , 才 
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* 这 里 的 FIQ Е ARM ARRIR, РА ARM 世 片 ,外 部 中 断 包括 片上 外 设 产生 的 中 断 。 一 一 译 者 注 
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>Р 进入 不 Q 蜡 常 处 理 ,所 以 返回 地 址 应 指向 下 一条 指令 , 即 (lr 一 4 处 表 9.4 提供 了 一 组 对 
= 应 不 同 异常 的 有 用 地 址 。* 

$ жо: ”基于 链接 赛 存 器 的 有 用 地 址 

: A 常 M 址 用 法 

口 复位 — 复位 没有 定义 1 

£ Sg ub ir— 8 指向 导 臻 数据 中 止 异 常 的 那 条 指令 
e] FIQ lr-4 FIQ 处 理 程序 的 返回 地 二 

Š IRQ lt— 4 IRQ 处 理 程序 的 返回 地 址 

л ЖЕНЕ -4 ШШ ЫЗЕНЕШТЕЕИШШЕНФ 
电 SWI ir 指向 SWT 拱 令 的 下 一 条 指令 

Q 未 定义 指令 — h 指向 未 定义 指令 的 下 一 条 指令 


接 下 来 的 3 个 例子 显示 了 从 IRQ 或 FIQ 异常 处 理 程序 返回 的 不 同方 法 。 
【 例 9.2】 说 明 使 用 SUBS 指令 从 IRQ M FIQ 处 理 程 序 返 回 的 一 种 典型 方法 ， 


handler 
< handler code 


SUBS perla, 4 ipe = ri4- 4 


因为 在 SUB 指令 昆 部 有 一 个 S, 并 且 pc 是 目的 寄存 器 ,所 以 cpsr 将 自动 从 spsr 寄存 
PAM. 
[9/9.3] 说 明 另 一 种 方法 一 一 在 处 理 程 序 开头 处 从 链接 寄存 器 r ЖЕБЕШ. 


handler 
SUB zld,rlid4, 间 4 :г14-= 4 
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«handler Code 


MOVS рс,г14 :返回 
服务 完成 后 的 返回 是 通过 把 链接 寄存 器 rl4 的 值 写 入 pce; 同时 从 spsr 寄存 器 中 恢复 
cpsr 来 实现 的 。 


* 这 些 是 由 ARM 流水 线 的 特性 决定 的 。 一 一 译 者 注 
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【 例 9.4] 使 用 中 断 堆 栈 来 保存 链接 寄生 器。 
这 种 方法 首先 从 链接 寄存 器 减 去 一 个 偏 移 量 ,然后 把 它 保存 到 中 断 堆栈 里 。 


handler 
SUB ri4,rl4.i[4 ;rl4-- 4 


SMED ri3!,[r0 - r3,rl4! пт FE Fx 
handler code > 
LDMED r13!, [r0 - r3 pe} ;3& [nl 


为 了 返回 到 正常 的 执行 ,使 用 LDM HORR рс. JEE РЕ E cpsr 从 spsr 
寄存 器 中 人 恢复。 
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9.2 中 W 


ARM 处 理 髓 有 2 种 类 型 的 中 断 。 第 一 类 蚌 由 外 设 引 起 的 , 即 IRQ 和 FIQ。 第 二 类 是 
一 条 引发 中 断 的 特殊 指令 一 一 SWI 指令 。2 种 中 断 都 会 挂 起 正常 的 程序 执行 ， 
本 节 的 重点 将 放 在 ТКО A FIQ 中 断 上 ,包括 下 列 要 点 ， 


e gp 

e ФИ ЕҢ, 

e IRQ 和 FIQ 异常 

e 基本 的 中 断 堆 栈 设计 及 实现 ， 


9.2.1 分 配 中 断 


系统 设计 时 可 决定 万 些 硬件 外 设 可 以 产生 哪 种 中 断 请 求 。 这 种 决定 可 通过 硬件 .软件 
《或 两 者 ) 来 实现 ,并 依赖 于 所 使 用 的 嵌 人 式 系 统 特 件 。 

ЕНЕ АРЕ ТКАНИ) ARM 两 个 中 断 请 求 之 一 。 复 杂 的 控制 器 可 以 通 
过 编程 来 选择 ,决定 一 个 外 部 中 断 源 产 生 的 是 IRQ 还 是 FIQ ЧЙ. 

在 分 配 中 断 时 ,系统 设计 者 应 采用 一 些 标准 的 设计 惯例 。 


e 软件 中 断 通 常 被 保留 ,用 来 调用 特权 操作 系统 例 程 。 例 如 ,可 以 使 用 SWI 指令 改变 一 个 
在 用 户 模式 下 运行 的 程序 到 一 个 特权 模式 。 关 于 SWI 处 理 程序 的 例子 ,可 参见 第 
11 章 。 | 
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e 中 断 请 求 (IRQ) 通 常 分 配给 通用 中 断 。 例如 ,一 个 周期 性 的 定时 器 中 断 用 来 强制 进 
行 上 下 文 切换 ,这 往往 就 是 一 个 IRQ 异常 。IRQ 异常 的 优先 级 比 FIQ 异常 低 ,并 且 中 断 
延迟 也 更 长 (这 将 在 下 一 节 中 讨论 ) 。 

@ 每 个 快速 中 断 请 求 (FIQ) 通 常 为 要 求 快速 响应 的 单个 中 断 源 保留 。 例 如 ,直接 存储 
器 访问 (DMA) 专 门 用 来 传送 存储 器 内 的 数据 块 ,因此 在 一 个 嵌入 式 操作 系统 设计 中 ， 
FIQ 异常 一 般 用 在 专用 场合 ,而 IR 异常 则 更 多 地 用 于 操作 系统 的 通用 操作 。 





9.2.2 中 断 延 迟 


在 中 断 驱动 的 嵌入 式 系统 中 ,对 中 断 延迟 时 间 要 求 很 苛刻 。 中 断 延 迟 是 指 : 从 外 部 中 断 
请 求 信号 发 出 到 取出 对 应 的 中 断 服务 程序 (ISR) 的 第 一 条 指令 ,这 期 间 的 间隔 时 间 。 

中 断 延 迟 依赖 于 软件 与 硬件 的 组 合 。 体 系 结构 设计 师 必 须 平衡 系统 设计 ,使 多 个 并 发 
的 中 断 源 能 够 得 到 处 理 , 同 时 最 小 化 中 断 延 迟 。 如 果 中 断 不 能 得 到 及 时 处 理 , 则 系统 会 显现 
出 很 慢 的 响应 ,甚至 导致 系统 瘫痪 。 

软件 处 理 程序 有 2 种 主要 的 方法 来 缩短 中 断 延 迟 。 第 一 种 方法 是 使 用 评委 办 记 t 
许 正在 为 一 个 中 断 服务 时 ,再 次 响应 其 它 中 断 ( 见 图 9. 3)。 通 过 在 某 中 断 源 得 到 服务 后 尽 
快 重新 允许 中 断 ,而 不 是 等 中 断 处 理 全 部 完成 后 再 允许 中 断 , 可 以 实现 这 种 方法 。 一 旦 骨 套 
的 中 断 服务 完成 ,控制 权 又 回 到 前 一 个 中 断 服务 例 程 。 
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正常 执行 





图 9.3 ЗЯЖЕЋЕ 


第 二 种 方法 是 引入 优先 级 (prioritization) , ЖМ i Ff B ibl d , Rš 22 Mr 53 IE TE Ab 
理 的 中 断 同 级 或 更 低 优先 级 的 中 断 , 因 此 只 有 高 优先 级 的 中 断 可 以 打 断 正在 执行 的 中 断 服 
务 。 设 定 这 种 工作 方式 后 ,需要 在 每 个 中 断 处 理 程序 中 重新 允许 中 断 (进入 每 个 中 断 处 理 程 
序 时 自动 关中 断 ) ,这 样 高 级 的 中 断 处 理 程序 才能 执行 ,并 将 先前 正在 处 理 的 较 低级 中 断 
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挂 起 。 
处 理 器 在 高 优先 级 中 断 来 到 之 前 ,处 理 低 优先 级 的 中 断 ,因而 与 低 优先 级 中 断 相 比 ,高 
优先 级 中 断 的 平均 中 断 延 迟 较 短 。 所 以 通过 加 速 完 成 对 时 间 敏感 的 中 断 ,可 以 缩短 延迟 。 


9.2.3 IRQ 与 FIQ 异常 


只 有 当 cpsr 中 相应 的 中 断 屏 蔽 被 清除 时 , 才 可 能 发 生 ТКО 与 ЕТО 异常 ARM 处 理 器 
在 处 理 中 断 前 ,继续 执行 已 经 处 于 流水 线 “ 执 行 ”阶段 的 指令 一 这 是 一 个 在 设计 具有 确定 
性 中 断 处 理 时 的 重要 因素 ,因为 有 些 指令 在 执行 阶段 需要 多 个 周期 来 完成 。 

一 个 IRQ 或 FIQ 异常 会 使 处 理 器 硬件 经 过 以 下 的 一 个 标准 流程 (假设 中 断 未 被 屏蔽 )， 


(D 处 理 器 切换 到 一 个 特定 的 中 断 请 求 模式 ,表明 产生 了 中 断 ; 

© 前 一 个 模式 的 epsr 被 保存 到 新 的 中 断 请 求 模式 的 spsr; 

@ pc 被 保存 到 新 的 中 断 请 求 模式 的 lr; 

@ 关中 断 一 一 在 cpsr 中 禁止 IRQ, 或 IRQ $ FIQ 两 者 都 被 禁止 ,这 会 立即 阻止 相同 类 
型 的 中 断 请 求 被 响应 ; 

© 处 理 器 跳 转 到 向 量 表 中 一 个 特定 的 人 口 。 


这 个 流程 根据 产生 的 中 断 类 型 不 同 而 稍 有 变化 。 以 下 将 对 2 种 中 断 举例 说 明 。 例 9. 5 
说 明了 一 个 IRQ 异常 发 生 时 的 情况 ;而 例 9. 6 说 明了 一 个 ЕТО 异常 发 生 时 的 情况 。 


【 例 9. 5】 图 9. 4 说 明了 处 理 器 在 用 户 模式 时 响应 了 ТКО 异常 的 情况 。 处 理 器 从 状态 
1 开始 。 在 本 例 中 ,cpsr 里 的 IRQ 和 FIQ 异常 位 都 被 使 能 了 。 
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图 9.4 中 断 请 求 (IRQ) 
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X 44 T IRQ 后 ,处 理 器 进入 状态 2。 这 一 转换 自动 将 IRQ 位 置 1, 关 闭 其 它 的 IRQ 
异常 。 但 是 ,FIQ 异常 仍然 是 允许 的 ,因为 FIQ 的 优先 级 更 高 , 当 低 优先 级 的 IRQ 异常 发 生 
时 ,不 会 被 关闭 。cpsr 里 的 处 理 器 模式 位 变 成 IRQ ЖА. 用 户 模式 的 cpsr 自动 复制 到 spsr 
_lrq。 

发 生 中 断 时 ,寄存 器 rl4_irq 保存 了 pc 的 值 。 然 后 pc 被 置 为 向 量 表 中 IRQ 的 人 口 地 
址 0x18。 

在 状态 3 中 ,软件 处 理 程序 开始 执行 ,并 且 调用 适当 的 中 断 服务 程序 来 为 中 断 源 服务 。 
完成 以 后 ,处 理 器 模式 转换 成 状态 1 中 最 初 的 用 户 模 式 。 


【 例 9.6】 图 9.5 说 明了 一 个 FIQ 异常 的 例子 。 

处 理 器 也 经 历 了 与 IRQ 异常 类 似 的 过 程 ,但 与 IRQ 异常 仅 屏蔽 其 它 的 IRQ 异常 不 同 ， 
处 理 器 还 屏 项 了 其 它 的 FIQ 异常 。 这 意味 着 进入 状态 3 中 的 软件 处 理 程序 时 ,IRQ 和 FIQ 
两 种 中 断 都 被 禁止 了 。 
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图 9.5 快速 中 断 请 求 (FIQ) 
变换 到 FIQ 模式 意味 着 没有 必要 保存 寄存 器 r8~r12, 因 为 这 些 寄存 器 在 FIQ 模式 下 


是 自动 备份 保护 的 。 这 些 寄存 器 可 以 用 来 保存 诸如 缓冲 区 指针 或 计数 器 之 类 的 临时 数据 。 
这 种 特性 使 得 FIQ 对 于 处 理 单个 中 断 源 ,高 优先 级 、 低 延迟 的 中 断 是 很 理想 的 。 


对 ARM 处 理 器 内 核 有 一 种 简单 的 方法 ,就 是 在 处 理 器 处 于 特权 模式 时 ,修改 cpsr, 通 
过 手工 操作 来 允许 和 禁止 中 断 。 
表 9.5 说 明了 如 何 允许 IRQ 和 FIQ 中 断 。 这 一 过 程 使 用 了 3 条 ARM 指令 。 

















9 异常 和 中 断 处 理 
# 9.5 允许 一 个 中 断 
cpsr йв IRQ FIQ 
之 前 nacvqifFy. 5УС nzevajlFt, SVE 
№ enable irq enable йд 
MRS rl, cpsr MES rl, cpsr 


BIC г], rl, 40x80 
MSR epsr с, rl 
之 后 nzevgu Ft. SVC 


BIC rl, rl, #0х40 
MSR срагс.г] 
лас SVC 


第 1 条 指令 MRS 把 cpsr 的 内 容 复制 到 寄存 器 ri; 第 2 条 指令 清除 IRQ 或 FIQ 的 屏蔽 
位 ;第 3 条 指令 把 更 新 过 的 寄存 器 rl 的 内 容 复 制 回 csr, AARRE. A _c 表明 被 
更 新 的 位 域 基 cpsr 的 控制 域 位 [7:04( 更 多 的 细节 参见 第 2 38), 36 9.6 说 明了 禁止 , 即 解 
蔽 中 断 请 求 的 类 似 操作 过 程 ， 


389.6 禁止 一 个 中 断 
cpsr wj fik IRQ FiQ 
之 前 nzcvgiift SVC ngcvqiift, SVC 
itg disable irq disable, б 
MRS rl, cpsr MRS rl, epsr 
ORR rl, rl, #0х80 ORR rl, rl, # 0x40 
MSR сораг c, rl MSR cpsr_e, rl 
之 后 nzcvgjlft SVE nzevgiiFt БУС 


BIR RJ EIER RUE Е, RAE MSR d E # 5 k T W KEW BUT EEBUS E 
定 ,理解 这 一 点 是 很 重要 的 。 在 MSR 指令 完成 执行 前 ,中 断 仍 可 发 生 或 者 仍 被 屏蔽 。 

为 了 同时 允许 和 禁止 IRQ 和 FIQ 异常 ,需要 对 第 2 条 指令 稍 加 改动 。 即 把 数据 处 理 指 
令 BIC 或 ОКЕ 后 的 立即 数 改 为 0xc0, 以 同时 允许 或 禁止 这 2 种 中 断 。 


9.2.4 基本 的 中 断 堆栈 设计 与 实现 


异常 处 理 程序 广泛 使 用 堆栈 ,每 一 种 模式 都 有 一 个 专门 的 寄存 器 保存 堆栈 指针 。 异 党 
堆栈 的 设计 取决 于 以 下 因素 ; 


e HERRER ”每 个 操作 系统 对 堆栈 设计 都 有 自己 的 要 求 ; 
e 日 祭 重 件 目标 硬件 限制 堆栈 的 实际 空间 大 小 稳 在 存储 器 中 的 位 置 。 
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在 堆栈 设计 时 , 须 确定 2 点 : 


@ 化 种 ”决定 了 在 存储 器 映射 中 ,堆栈 从 何 处 开始 。 大 多 数 基于 ARM 系统 设计 的 堆 
栈 是 采用 向 下 递减 式 ( 下 降 式 ) 的 , 栈 顶 位 于 存储 器 的 高 端 地 址 。 

e 埃 礁 大 小 ”依赖 于 处 理 程序 的 类 型 一 一 幅 套 的 还 是 非 幅 套 的 。 一 个 髓 套 中 断 处 理 
程序 需要 更 多 的 存储 器 空间 ,因为 堆栈 将 随 中 断 嵌 套 的 深度 而 增加 。 


一 个 好 的 堆栈 设计 必须 避免 雁 秦 肉 内 一 一 堆栈 超出 了 分 配给 的 存储 空间 ,这 会 导致 系 
统 不 稳定 。 有 一 些 软件 技术 可 以 确认 堆栈 是 否 溢出 ,并 在 发 生存 储 空间 遭 到 无 法 恢复 的 破 
坏 前 ,采取 措施 来 修复 堆栈 。2 种 主要 的 方法 是 : 使 用 存储 保护 ;在 每 个 例 程 开 始 处 调 
用 堆栈 检查 函数 。 

IRQ 模式 堆栈 必须 在 中 断 允 许 前 设置 好 一 一 通常 是 在 系统 初始 化 代码 中 。 在 一 个 简 
单 的 嵌入 式 系统 中 ,确认 堆栈 的 大 小 是 很 重要 的 ,因为 堆栈 大 小 在 固件 启动 的 初始 阶段 是 被 
BE. 

图 9.6 显示 了 在 线性 空间 中 2 种 典型 的 存储 安排 方式 。 第 一 种 方式 A, 说 明了 一 个 传 
统 的 堆栈 安排 ,中 断 的 堆栈 位 于 代码 段 之 下 。 第 二 种 方式 B, 中 断 堆 栈 在 用 户 堆栈 之 上 ,位 
于 存储 器 的 顶端 。B 优 于 A 之 处 是 ,B 在 堆栈 溢出 时 不 会 破坏 向 量 表 ,因此 系统 在 确认 溢出 
后 ,还 有 机 会 纠正 自己 的 错误 。 
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图 9.6 典型 的 存储 器 安排 方式 


【 例 9. 7] 每 一 种 处 理 器 模式 都 要 建立 一 个 堆栈 ,这 是 在 处 理 器 每 次 复位 时 完成 的 。 
图 9.7 说 明了 使 用 上 述 方式 A 的 实现 。 为 了 有 助 于 存储 器 安排 , 先 声明 一 些 存储 区 域名 称 
的 绝对 地 址 映射 定义 。 
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图 9.7 使 用 方式 A 的 实现 例子 


例如 ,用 户 模式 堆栈 用 标号 USR_Stack 表示 ,对 应 地 址 0x20000; 管 理 模 式 堆栈 对 应 的 
地 址 是 IRQ 堆栈 下 面 128 FHA. 


USR_Stack EQU 0x20000 
IRQ Stack EQU 0x8000 
SVC Stack EQU IRQ Stack - 128 


为 了 方便 进行 不 同 处 理 器 模式 的 切换 ,另外 声明 了 一 组 标号 定义 ,使 得 每 一 种 模式 对 应 
于 一 个 特定 的 位 格式 。 这 些 标号 可 以 用 来 设置 cpsr 的 新 模式 。 


Usr32md EQU 0x10 ;用 户 模 式 
FIQ32md EQU 0х11 ;FIQ 模式 


IRQ32nd ЕШ 0х12 ;IRQ 模式 
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SVC32md ЕФ 0x13 ;管理 模式 
. Abt32md EQU 0х17 ;中 止 模式 
Und32md EQU Oxlb ‚ЖЕ 2 82 8 = 
Sys32md EQU Üxlf ;系统 模式 
出 于 安全 ,需要 声明 一 个 定义 来 禁止 cpsr 中 的 IRQ 和 ЕТО 异常; 
NoInt FQU бхсб E325 2.7] 


Nolnt 通过 设置 2 个 屏 项 位 为 1 来 禁止 这 2 种 中 断 。 

初始 化 代码 一 开始 就 设置 各 个 处 理 器 模式 的 堆栈 寄存 器 。 当 发 生 模 式 改 变 时 ,堆栈 寄 
ff 98 rli 是 受 备份 保护 的 寄存 器 之 一 。 代 码 首先 初始 化 IRQ 堆栈 。 出 于 安全 考虑 ,最 好 在 
Nolnt 与 新 模式 之 间 ,使 用 逻辑 位 “或 "OR) 来 确保 中 断 是 关闭 的 。 

必须 为 每 种 模式 设置 堆栈 。 这 里 有 一 个 例子 ,说 明了 处 理 器 内 核 复位 后 是 如 何 设置 3 
种 不 同 的 堆栈 的 。 


ЕЖ: LE- EREA ARRP FIQ REX HA ЖЯ ЕЕ ҖАНА, ЖК Ж, Тоиф 
上 与 之 类 己 的 代码 来 实现 。 


e EB ER EB E Ме T tT Н УС 堆栈 的 建立 包括 把 
指向 SVC_NewStack 的 地 址 装载 到 寄存 器 rt3_svc。 对 于 本 例 , 这 个 值 为 SVC_ 
Stack, 
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320 LDR г13,89С NewStack :r13_svc 


SVC MewStack 
DCD SVC Stack 


e IRO EGUETRE — HA T IR 堆栈 ,处 理 器 内 核 必须 切换 到 IRQ 模式 。 在 寄存 
器 r2 存放 cpst 的 位 格式 ,然后 将 其 复制 到 cpsr, 就 可 以 使 处 理 器 进入 IRQ 模式 ， 
这 个 操作 使 得 寄存 器 r13_irq 立 基 可 用 ,并 被 赋值 为 IRQ_Stack. , 

MOV — r2,íbNoInt | IRQ32md 
MSR cpsr с,г2 
LDR r13,IRQ NewStack 4r13_jrg 


ІҢ) NewStack 


DCD IRQ Stack 


e HP EGUEH MEERKERK MASARA ERN ЖЕЕ 
E cpsr 的 方法 。 由 于 系统 模式 与 用 户 模式 共享 寄存 器 ,所 以 可 以 强制 处 理 颖 进 人 
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KSBGUEREBEBPCBGUER. 


MOV r2, Sys32nd 
MSR Cpsr c,r2 
LDR r13,USR NewStack $rl3 usr 


USR NewStack 
DCD UIER Stack 


每 种 模式 使 用 独立 的 堆栈 而 不 是 使 用 统一 的 堆栈 处 理 , 这 样 做 的 一 个 主要 优点 是 :可 以 
调试 一 个 有 错误 的 任务 ,并 且 与 系统 的 其 它 部 分 隔离 。 


9.3 中断 处 理 方法 


最 后 这 一 节 将 介绍 几 种 不 同 的 中 断 处 理 方法 " ,包括 从 简单 的 非典 套 中 断 处 理 , 到 较 复 
杂 的 分 组 优先 级 中 断 处 理 。 每 种 方法 都 是 以 综述 结合 实例 的 形式 给 出 的 。 
这 里 讨论 的 中 断 处 理 方法 包括 ; | 


e rira ”顺序 地 处 理 和 服务 各 个 中 断 , 这 是 最 简单 的 中 断 处 理 程序 ，; 

e HEPKE hH 4 NUR IYR E KS ВО Ф Si; 

e [ШАР ЛШ ПЕЕЛИ, 

e ЖЕЛШ ЖШН ЙН, 

e HERMETE ЩТ КЕЛЖ РИ. ЛЕН ШЕН ИИИ m K as ТИ; 

e AES B hisa ”能 在 更 短 时 间 内 处 理 高 优先 级 中 断 ,并 直接 跳 转 到 一 个 专用 
的 服务 例 称 ; 

ФЛ ЧАКАН 一 种 中 断 处 理 方法 ,把 中 断 划分 到 不 同 的 优先 级 组 中 ; 

e XT VIC PL190 "АИЯ WH Y pa Rp É Е CVIO) ЖШ ИСЛЕРИ 
服务 例 程 设计 的 。 | 


9.3.1 非 嵌 套 中 断 处 理 


最 简单 的 中 断 处 理 是 非 髓 套 的 :只 有 当 控 制 权 回 到 被 中 斯 的 任务 或 过 程 时 , 才 允 许 再 次 
响应 中 断 。 由 于 一 个 非 嵌 套 的 中 断 处 理 程序 在 一 个 时 段 内 只 能 为 一 个 中 断 服务 ,所 以 这 种 


* 本 节 讨论 的 中 断 处 理 方法 主要 村 对 ARM 内 核 中 断 ， 对 于 目前 各 厂家 的 许多 ARM 处 理 器 芯片 ,一 般 都 带 有 功能 较 
强 的 (向 量 ) 中 断 控制 名 ,可 简化 中 断 处 理 编程 (参见 文中 最 后 一 种 中 断 处 理 方 法 ) 。 一 一 译 者 注 
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形式 的 中 断 处 理 程序 不 适合 需要 为 多 个 不 同 优先 级 中 断 服务 的 复杂 嵌入 式 系统 ，。 
图 9. 8 显示 了 在 一 个 实现 了 简单 的 非 峰 套 中 断 处理 系 统 上 ,发 生 一 次 中 断 的 各 种 阶段 


中 断 
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图 9.8 简单 的 非 嵌 套 中 断 处 理 过 程 


DREPE CEPI — HRE IRQ 异常 时 ,ARM 处 理 器 将 禁止 其 它 IRQ 异常 的 产 
生 。 处 理 器 模式 被 设置 为 适当 的 中 断 请 求 模式 ,前 一 个 模式 的 cpsr 值 被 复制 到 新 近 有 效 的 
spsr-{ 中 断 请 求 模式 } 。 然 后 ,处 理 器 使 pc 指向 向 量 表 内 正确 的 入 口 地址 ,并 开始 执行 这 一 
指令 。 这 句 指令 将 使 pc 指向 专门 的 中 断 处 理 程序 。 

O REE TFX — 一 进入 处 理 程序 ,首先 要 保存 当前 模式 下 没有 被 自动 分 组 保护 的 部 
分 寄存 器 。 

O 四 刻 处 理 程序 一 一 处 理 程序 确定 外 部 中 断 源 , 并 执行 相应 的 中 断 服务 例 程 (ISR)。 

@ 中 肠 服 务 程序 一 一 ISR 为 外 部 中 断 源 提供 服务 ,并 复位 该 中 断 。 

Q HAE E PX: — B ISR 返回 到 中 断 处 理 程序 后 ,处 理 程序 负责 恢复 上 下 文 。 

© 允许 由 肠 ( 开 中 肠 ) 一 一 最 后 ,为 了 从 中 断 处 理 程序 返回 ,使 用 spsr_{ 中 断 请 求 模式 ) 
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REKER cpsr. RA pe 指向 响应 中 断 时 的 下 一 条 指令 。 
[45.8] 这 个 IRQ 处 理 程序 的 例子 假定 初始 化 代码 已 经 正确 建立 了 IRO ER. 


interrupt handler 


SUB г14,г14, #4 ;调整 Ir 
STMED 131,(10-13,г12,014) ;{ ЕКЕЖ 
"PE mH 

LDMFD rli!'.frü-r3,rl2,pceb ;返回 


第 一 条 指令 设置 链接 寄存 器 rld іга 的 值 为 返回 到 被 中 断 任务 或 过 程 的 正确 地 址 ， 如 
8. .4 小 节 描 述 的 那样 ,由 于 流水 线 的 特性 ,在 每 一 个 IRQ 处 理 程 序 的 人 口 ,链接 寄存 器 指 
向 的 地 址 比 返回 地 址 多 4 字 节 ,因此 处 理 程序 必须 从 链接 寄存 器 中 减 去 4。 链 接 寄存 器 的 
值 保存 在 堆栈 里 ,为 了 返回 被 中 断 的 任务 , 从 堆栈 恢复 链接 寄存 器 的 内 容 , 并 将 其 复制 
到 pc。 

ЖЖ: 由 于 ATPCS 调用 规划 , 害 青 器 10 13 及 寄存 器 т12 也 被 保育 。 这 就 克 许 一 个 遵 社 ATPCS 的 
тж Ж Б эжи Ж ЖДИ. 


STMFD 指令 通过 把 寄存 器 组 的 一 个 子 集 放置 到 堆栈 ,来 保护 上 下 文 。 由 于 执行 一 名 
STMFD 或 LDMFD 指令 的 时 间 与 参与 的 寄存 器 数目 成 正比 ,为 了 缩短 中 其 延迟 ,只 保存 了 
尽 可 能 少 的 寄存 器 。 被 保存 到 堆栈 的 寄存 加 由 害 存 器 r13_ {中 断 请 求 模式 } 来 指向 ， 

如 果 在 系统 中 使 用 的 是 高 级 语言 , 则 理解 编译 器 的 过 程 调用 规则 是 很 重要 的 ,因为 这 不 
仅 会 影响 到 被 保存 的 寄存 器 ,也 会 影响 到 其 被 保存 到 堆栈 的 顺序 。 例 如 ,在 一 个 子 程序 调用 
中 ,ARM 编译 器 保存 了 寄存 器 r4~r11, 因 此 没有 必要 再 次 保存 ,除非 在 中 断 处 理 程序 中 会 
用 到 它们 。 如 果 没 有 调用 C 例 程 , 则 没有 必要 保存 全 部 的 寄存 器 。 只 有 当 寄 存 器 已 被 保存 
到 中 断 堆栈 后 ,调用 一 个 C 函数 才 是 安全 的 ,* 

在 一 个 非 嵌 套 的 中 断 处 理 程序 中 ,没有 必要 保存 spsr, 因为 它 不 会 被 任何 顺序 的 中 断 所 
破坏 。 

在 中 断 处 理 程序 的 最 后 ,指令 LDMEFD 将 恢复 上 下 文 , 并 从 中 断 处 理 程 序 返回 。LDM 
FD 指令 末尾 的 “”, 意 味 着 cpsr 的 值 将 从 spsr 中 得 到 恢复 ,这 只 有 在 pc 同时 也 被 装载 的 情 
AFTAR. 如果 pe 没有 被 装载 ,那么 “? 只 恢复 用 户 模 式 的 备份 寄存 器 组 。 

在 这 里 ,中 鼎 处 理 程 序 完成 了 所 有 的 事务 ,并且 直接 返回 到 应 用 程序 。 

一 旦 进 人 人 中断 处 理 程序 ,保护 上 下 文 以 后 ,处理 程序 就 须 确定 中 断 源 。 以 下 给 出 一 个 简 
单 的 例子 ,以 说 明 如 何 确 定 中 断 源 。JRQStatus 是 中 其 状 态 寄存 器 的 地 址 。 如 果 没 有 确定 
中 断 源 , 则 控制 权 可 以 移交 给 另 一 个 处 理 程序 ， 在 本 例 中 ,将 控制 权 交 给 了 debug monitor. 
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| >| 当然 也 可 以 忽略 掉 这 个 中 断 。 
全 Interrupt handler 
< SUB riá rl, 844 irl4 -= 4 

| Ф STMED sp! , (rO - r3,r12,r14] :保护 上 下 文 
3 шк r0 , = IRQStatus PAS SEED 
" LDR r0, [r0] :得 到 中 断 状态 

| $ TST го, t 0х0080 :如 果 中 断 源 是 定时 器 
О BRE timer isr ;就 跳 转 到 定时 器 ISR 
9 TST r0, $0х0001 Ш#ЯЖЕКШ 
zi BNE button_isr ; 则 调用 按钮 ISR 

| @ LDMED spl, (rü - z3,r12,r14j KALF 
D LDR рс , = debug monitor „ДЕ $£ RI debug monitor 


ТЕЗМӘ rd Ж ISR:timer isr 和 button, isz,. TZ [[] 5 IRQStatus 指向 的 中 断 状 态 寄 
存 崔 中 的 特定 位 相对 应 ,分 别 为 0x0080 和 0x0001 , 


A BS BERERE RELE 
e 依次 处 理 各 个 中 断 ; 
e 中 断 延迟 较 大 ,不 能 在 为 一 个 中 断 服务 的 同时 ,处 理 新 的 中 断 ; 
e 优点 :相对 来 说 易于 实现 和 调试 ; 
e 缺点 ;不 能 用 于 处 理 有 多 个 优先 级 中 断 的 复杂 幅 入 式 系 统 。 


9.3.2 REPRE 


峰 套 中 断 处 理 考虑 了 在 当前 被 调用 的 中 斯 处 理 程 序 执行 过 程 中 ,发 生 另 一 个 中 断 的 情 
形 。 在 处 理 程 序 完成 当前 中 断 的 服务 前 重新 允许 中 斯 ,可 以 实现 中 断 笑 套 。 

对 一 个 实时 系统 ,这 一 特性 增加 了 系统 的 复杂 性 ,但 也 改 进 了 系统 的 性 能 。 复 杂 性 的 增 
加 会 引 人 一 些 非常 细微 的 时 序 问题 ,这 可 能 会 导致 系统 失败 ,而 且 这 些 细微 的 问题 非常 难以 
解决 。 在 设计 一 个 能 套 中 断 方法 时 ,应 当 非 常 仔细 , 以 免 出 现 这 些 问题 。 通 过 保护 从 中 断 中 
侠 复 的 上 下 文 , 可 以 实现 这 一 点 ,这 样 下 一 个 中 斯 就 不 会 填 满 堆栈 (导致 堆 楼 溢出) 或 稚 坏 任 
何 害 存 器 的 值 。 

任何 一 个 中 断 处 理 程序 的 首要 目标 ,是 对 中 断 的 及 时 偏 应 ,所 以 中 断 处 理 程序 不 会 等 待 
任何 异步 的 事件 ,也 不 会 所 使 其 等 待 中 断 处 理 ; 第 二 个 目标 ,是 在 为 名 中 断 提 供 服务 时 ,不 会 
延误 常规 同步 代码 的 执行 

复杂 性 的 增加 ,意味 着 设计 者 需要 在 效率 和 安全 方面 作出 折 庄 。 可 以 来 用 防 物性 的 纺 
码 风 烙 一 一 假定 会 发 生 问 题 并 采取 相应 措施 处 理 程序 必须 检查 堆栈 ,并 保护 可 能 会 被 彼 
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坏 的 寄存 器 。 
图 9. 9 显示 了 一 个 嵌 套 的 中 断 处 理 过 程 。 从 图 中 可 以 看 出 ,这 个 处 理 过 程 比 9. 3. 1 小 
节 介 绍 的 简单 非 慌 套 中 断 处 理 过 程 要 复杂 得 多 。 


бироон {агшәци аму uoudeox3 6 
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图 9.9 媒 套 的 中 断 处 理 过 程 


网 套 的 中 断 处 理 程序 人 口 处 代码 与 简单 的 非 嵌 套 中 断 处 理 程序 类 似 ,不 同 之 处 在 于 ,在 
退出 时 ,处 理 程序 要 测试 被 ISR 更 新 过 的 一 个 标志 。 这 个 标志 表明 ,是 否 需 要 做 进一步 的 
处 理 , 如 果 不 要 求 更 多 的 处 理 ,那么 这 个 中 断 服务 例 程 就 完成 了 ,处 理 程序 也 可 以 退出 ;如 果 
需要 进一步 处 理 , 处 理 程序 可 能 要 采取 若干 措施 :重新 允许 中 断 ,并 /或 执行 一 次 上 下 文 
切换 。 

重新 允许 中 断 包括 把 IRQ 模式 切换 到 SVC 或 系统 模式 。 在 IRQ 模式 下 ,不 能 简单 地 
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重新 允许 中 断 ,因为 这 可 能 会 导致 链接 寄存 器 r14_irg Ж ЖН, ЗЕ Ж] ЗЕ EATS BL 
后 即 发 生 一 个 中 断 。 这 个 问题 将 在 9. 3. 3 小 节 中 详细 讨论 。 

执行 上 下 文 切换 包括 复位 (清空 )IRQ 堆栈 ,因为 当 IR 堆栈 中 还 有 数据 时 ,处 理 程序 
不 会 执行 上 下 文 切换 。 所 有 保存 在 ТКО 堆栈 的 寄存 器 必须 转移 到 任务 堆栈 ,典型 地 是 放 在 
管理 模式 堆栈 上 。 然 后 ,其 余 的 寄存 器 也 必须 被 保存 到 任务 堆栈 。 在 那里 ,它们 会 被 转移 到 
推 栈 中 一 个 称 为 纵 埠 航 的 保留 存储 块 上 。 


[59.9] 一 个 身 套 中 断 的 处 理 程序 范例 ,基于 图 9. 9 的 流程 图 。 
本 小 节 的 其 余部 分 将 详细 介绍 该 处 理 程序 及 其 各 阶段 的 细节 ，。 


Masknd EQU — Oxlf ;处理 器 模式 屏蔽 位 

SVC32md EQ Фіз SVC 模式 

I Bit ЕШ 05х80 RO f 

FRAME RO EQU 0х00 

FRAME Rl EQU — FRAME RO + 4 

FRAME R2 EQU — FRAME Ri + 4 

FRAME R3 EQU — FRAME R2 + 4 

FRAME R4 EQU — FRAME R3 + 4 

FRAME R5 ЕЈ — FRAME RM + 4 

FRAME, R6 EQU — FRAME R5 + 4 ` 

FRAME R7 EQU — FRAME R6 + 4 

FRAME RB EQU — FBAME RT + 4 

FRAME R9 EQU — FRAME RB + 4 

FRAME R10 EQU FRAME R9 + 4 

FRAME, R11 EQU — FRAME RIO + 4 - 

FRAME R12 ROU — FRAME RII + 4 

FRAME PSR EQU — FRAME R12 + 4 

FRAME LR EQU — FRAME PSR + 4 

FRAME РС EQU — FRAME LR + 4 

FRAME SIZE EQU — FRAME PC + 4 

IRQ Entry ;指令 状态 :注释 
SUB rl4,r14, 4 4 ;2 
STMDB r13],frü — r3, r12,r14] 2 ji F Fx 
B3 > 
BL read RescheduleFlag ;3 B RB APER 
СМР їб,Ё0 


+3 


:是 藻 要 进一步 处 理 ? 
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LDMNEIA rl3!,(rü- r3,rl2,.pck 说 :和 理 则 返回 0 
MRS г2,8рзг 5 (M spsr irq A 
MOV rü.rl3 ;5 ,复制 r13_irq Ф 

ADD ri3.ri3 H 6*4 5 :复位 堆栈 о, 
MRS rl,cpsr :6 M Bl cpsr 3 

BIC r1,rl, # Masknd T > 
ORR ri,rl, ft SVC32md ;6 5 
MSR cpsr c,ril iG Dif s suc Ë 
SUB r13,r13 ‚Дф ЕНАМЕ SIZE- FRAME RA ;7 ,保留 空间 Ф 

STMIA r13, (r4 - rl1) SO Rf rn 5 

LDMIA r0, (r4 - r9) ;1 A ra r9 工 
BIC rl,rl1, І Bit ;8 Q 

MSR cpsr c,rl ;:8 fei f IRA о 

STMDB r3, (rd- r7) ;9 RE rd~r7 SUC à 

STR r2,[r13, # FRAME, PSR] 19 ,{ TE PSR 

STR rB,[r13, # FRAME R12) 9 Erl 

STR r9,[r13, #ЕВАМЕ РС] 3 :保存 ze 

STR rid,[r13, 1t FRAME LR] 3 RETE 17 

< h BI E 3 RE 

LDMIA r13!, (r0 - 12, r14) 1 ЖЕРЕХ 

MSR spsr cxsf,rl4 11 IBN spsr 

LDMIA 1131, (rd, pci ;11 ;返回 32? 





这 个 例子 使 用 了 一 个 堆栈 帧 结构 。 所 有 的 寄存 器 ,除了 堆栈 寄存 器 r13 外 ,都 被 保存 到 
这 个 帧 里 。 这 里 ,寄存 琐 的 硕 序 不 是 重要 的 ;但 FRAME_LR 和 FRAME, PC 是 例外 ,它们 
必须 是 这 个 由 里 的 最 后 2 个 寄存 器 ,因为 程序 变 使 用 单一 的 指令 来 返回 ， 


LDMIA r13! ,[r14, pc] 


可 能 还 有 其 它 寄存 器 需要 保存 到 堆栈 帧 里 , 这 取决 于 使 用 的 操作 系统 或 应 用 程序 ， 
例如 ， 


e 当 操 作 系 统 支 持 2 种 模式 一 一 用 户 模式 和 管理 (SVC) 模 式 时 , 须 保 存 寄存 器 113 


usr 和 г14 usr; 


e 当 系 统 使 用 硬件 浮 点 时 , 须 保 存 浮 点 寄存 器 。 


在 本 例 中 声明 了 一 些 定义 ,这 些 定义 使 不 同 的 epsr/spsr 改变 有 映 射 到 一 个 特定 的 标号 
《例如 I Bit), 


另外 还 志明 了 一 组 定义 ,定义 了 各 个 赂 寄存 器 的 帧 指针 偏 移 量 。 当 重新 介 许 中 上 断 , 寄 存 
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35 A к fr Bj ЖЕ RR CU Б.А Ж E EB HEB. eS B rp LEER LE OR TEE SVC N 
TRENT. 

AJB ИЖЕ À CI+ И Y БЕЧЕНЕК E HB kE sl ДЕЯН Еа, 8 k pak ЕЕ 
寄存 器 zl14 ,使 其 指向 正确 的 返回 地 址 :然后 把 上 正文 和 链接 害 存 器 (14 保存 到 IRQ 堆栈 ， 

接 下 来 中 断 服 务 程序 就 为 中 斯 提 供 服务 。 妆 服务 完成 或 部 分 完成 时 ,控制 权 又 交还 给 
处 理 程 序 。 然 后 ,处 理 程序 调用 一 个 称 为 read_RescheduieFlag 的 函数 , 流 函 数 决 定 了 是 否 
需要 做 进一步 的 处 理 。 如 果 不 需 要 更 多 的 处 更, 就 在 寄存 器 го 中 返回 一 个 非 零 的 值 ;否则 
返回 零 。 

注意 : 这 里 没有 给 出 resd RescheduleFlag аА, ТИ РЖ АКНИ, 


接着 测试 寄存 器 r0 的 返回 值 , 如 果 该 寄存 器 不 为 0, 则 处 理 程序 恢复 上 十 文 , 并 把 控制 
权 交 还 给 被 持 起 的 任务 。 

如 果 寄 存 器 r0 被 设置 为 0, 则 表明 需要 做 进一步 的 处 理 。 第 一 步 操作 是 保存 эрэг, Вр 
把 spsr irq 的 副本 送 至 寄存 器 ?2; 然 后 , 姓 理 程序 可 以 把 spsr 保存 到 堆栈 帧 。 

由 寄存 带 r13_irq 指向 的 IRQ 堆栈 地 址 被 复制 到 寄存 器 r0, 以 备 后 用 。 下 一 步 是 复位 
(清空 )IRQ 堆栈 。 这 是 适 过 在 栈 项 加 6X4 字 节 来 实现 的 ,因为 堆栈 是 向 下 生长 的 ,一 条 
ADD 指令 可 以 用 来 复位 堆栈 ， 

处 理 程序 无 须 担心 保存 在 IRQ 堆栈 里 的 数据 会 被 另 一 个 展 套 的 中 断 所 破坏 ,因为 这 时 
中 断 还 是 被 禁止 的 ,处 理 程序 一 直 杰 到 IRQ 堆栈 的 数据 被 恢复 后 , 才 重 新 允许 中 断 。 

然后 ,处 理 程序 切换 到 SVC 模式 ,中 断 仍 被 禁止 。cpsr 被 复制 到 寄存 器 +1, 并 被 修改 ， 
使 处 理 器 模式 为 SVC, AFR rl 再 被 写 回 到 cpsr, 于 是 当前 模式 就 变 成 了 SVC 模式。 新 
cpsr 的 副本 保留 在 寄存 器 rl 中 ,以 恒 后 面 使 用 。 

绸 下 一 步 ,是 以 堆栈 帧 的 尺寸 ,通过 扩展 堆栈 来 构建 一 个 堆栈 帧 。 害 存 器 rt~-rll 可 以 
保存 在 堆 杰 是 中 ,这 样 可 以 释放 足够 的 寄存 器 ,以 恢复 仍 由 寄存 器 r0 指向 的 ТЕО 堆栈 中 的 
其 余 寄 存 器 。 

这 一 阶段 堆栈 巾 保 留 的 信息 见 表 9, 7。 仅 有 的 、 未 被 保存 到 堆栈 帧 中 的 寄存 器 ,是 在 
IRQ 处 理 程 序 人 口 处 已 被 保存 的 寄存 器 。 

# 9.8 列 出 了 对 应 于 存在 的 ТКО 寄存 器 ,SVC 模式 下 的 各 寄存 内。 现在 处 理 程序 可 以 
从 IRQ 堆栈 中 重新 得 到 所 有 的 数据 ,重新 允许 中 斯 是 安全 的 。 

处 理 程 序 保 存 好 重要 的 寡 存 器 后 ,重新 允许 IRQ RR ИШЕНИШ Т. # 9. 9 
列 出 了 一 个 完整 的 堆栈 帧 , 它 可 以 用 在 上 下 文 切换 或 处 理 嵌 套 中 断 的 场合 。 


# + 

FRAME, RO 
FRAME В) 
FRAME R2 
FRAME R3 
FRAME, R4 
FRAME R5 


FRAME Ró 


FRAME R7 








35.7 SVC 堆栈 由 
ik ж 号 do + taz 
+0 FRAME_R8 +32 RŠ 
+4 ЕКАМЕ 0 +36 19 
+8 FRAME, R10 +40 r10 
+12 FRAME, R11 +4 rll 
+16 FRAME_R12 48 一 
十 20 FRAME_PSR 452 一 
+24 FRAME LR +56 一 
+28 FRAME, PC 60 一 








表 9.8 J. IRQ 堆栈 取 回 数据 




























*4EGVO) к=к IRR #$5 8 

г4 0 

т5 г1 

тб г? 

г? rà 

т8 г12 

19 r14GE [{ ҖЕ) 

99.7 ЖЕНЕВИ 

ж + 
FRAME. RO +0 ro FRAME, ра | 十 路 18 
FRAME R1 +4 r} FRAME, R9 +3 — r9 
FRAME. R2 t8 г? FRAME, R10 +40 rl0 
FRAME R3 十 12 r3 FRAME R11 +4 rll 
FRAME R4 十 16 4 FRAME_R12 +48 п? 
FRAME R5 +20 rŠ FRAME_PSR +52 spsr_irg 
FRAME, R6 +24 rŠ FRAME_LR +56 — n4 


FRAME. К? 












FRAME PC 十 的 г14 іта 
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ARM 嵌入 式 系 统 开发 





接 下 来 这 个 阶段 可 以 处 理 中 断 服务 的 其 余部 分 。 把 当前 任务 控制 块 的 寄存 器 r13 的 当 
前 值 保存 ,并 从 新 的 任务 控制 块 装载 一 个 新 的 值 到 寄存 器 r13 ,就 可 以 实现 上 下 文 切 换 ， 

最 后 ,处 理 器 可 能 返回 到 被 中 断 的 任务 或 处 理 程序 ;如 果 发 生 了 上 下 文 切换 , 则 切换 到 
AMER. 


|o # SEETUAME 
e 处 理 没 有 分 配 优先 级 的 多 个 中 断 ; 
e 中 等 或 较 高 的 中 断 延 壕 ; 
e 优点 :在 为 一 个 中 有 断 服务 完成 前 允许 其 它 中 断 , 以 争 短 中 断 延 枯 ; 
e 缺点 :不 处 理 中 断 的 优先 级 ,因此 低 优先 级 的 中 断 会 阻塞 高 优先 级 的 中 断 。 


9.3.3 ”可 重 入 中 断 处 理 


可 重信 中 断 处 理 是 处 理 多 个 中 断 的 一 种 方法 ,这 里 ,多 个 中 断 按 优先 级 被 排序 ,过 滤 入 
选 ,这 对 于 满足 高 优先 级 中 断 要 求 低 延迟 的 需求 是 很 重要 的 。 这 种 类 型 的 筛选 是 使 用 一 般 
的 骨 讲 中 断 处 理 无 法 做 到 的 ， 

可 重 入 中 断 处 理 程序 与 柑 套 中 断 处 理 程序 的 基本 区 别 是 ,在 可 重 人 中 断 处 理 程序 中 ,更 
旱地 重新 允许 了 中 断 , 从 而 缩短 了 中 断 延 迟 。 更 早 地 重新 允许 中 断 会 带 来 的 一 些 问题 ,本 节 
将 作 详 细 的 讨论 。 

在 可 重 人 中 断 处 理 中 的 所 有 中 断 , 必 须 是 在 ARM ДЕ УС, £ Ab E X RA sË 
ЕЙ qm. 

AUR E — РАД 中 重新 允许 了 中 断 , 并 且 这 个 中 断 例 程 使 用 BL 调用 了 一 个 子 程 
序 , 那 么 这 个 子 程序 的 返回 地 址 将 被 设置 在 寄存 器 r14_irqg。 这 个 地 址 随后 会 被 男 一 个 中 断 
所 破坏 ,因为 寄存 器 r14_irq 的 值 将 被 材 盖 。 为 了 避免 这 种 情况 ,中 断 例 程 应 切换 到 SVC 或 
系统 模式 ,那样 ,BL 指令 可 以 使 用 寄存 器 rl4_svc 来 保存 子 程序 的 返回 地 址 。 在 通过 cpsr 
重新 允许 中 断 前 ,中 断 源 必须 被 禁止 ,这 一 般 是 通过 设置 中 断 控制 器 的 某 个 寄存 器 位 来 实 
现 的 。 

如 采 在 中 断 源 未 被 禁止 ,相应 外 理 尚 未 完成 前 ,重新 允许 中 断 ,那么 中 断 处 理 将 会 立即 
再 次 发 生 FAIRA ERRA A (race condition)。 大 多 数 中 渐 控 制 器 都 有 一 个 中 断 
FRATE MKR- AREA MEROPE RIF. 

由 于 中 断 是 在 SVC 模式 下 得 到 服务 的 (例如 ,在 任务 堆栈 ), 中 断 堆 栈 未 被 使 用 ,所 以 
IRQ 堆栈 寄存 器 113 可 以 用 来 指向 一 个 12 字 节 的 结构 体 。 这 个 结构 体 可 以 用 于 在 中 断 人 
口 处 临时 保存 一 些 寄存 只。 

图 9. 10 显示 了 可 重 人 中断 处 理 的 流程 图 。 | 

在 一 个 可 重信 中 断 处 理 中 ,中 断 控制 器 对 中 断 的 优先 级 排序 是 非常 重要 的 。 如 果 中 断 
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Ш 9,10 可 重 入 中 断 处 理 


没有 被 优先 级 排序 , 则 系统 延迟 性 能 会 下 降 到 与 笛 套 中 断 处 理 相间 的 水 平 。 因 为 那样 的 话 ， 
低 优先 级 中 断 能 够 抢占 正在 被 服务 的 高 优先 级 中 断 ;同时 ,这 也 会 导致 在 低 优 先 级 中 断 服务 
期 间 , 高 优先 级 中 断 得 不 到 响应 。 


[A 9.10】 假设 寄存 器 013 ira 已 被 设置 为 指向 一 个 12 字 节 的 数据 结构 体 ,而 不 是 指 
四 标准 的 ТКО H., IRO spr 等 偏 移 量 用 来 指向 这 个 结构 的 数据 项 像 所 有 的 中 断 处 理 
程序 一 样 , 希 要 和 做 一 些 标准 的 定义 ,以 修改 害 存 器 cpsr 和 spsr。 
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ARM 嵌入 式 系 统 开发 
IRQ RO EQU 0 
IRQ spsr EQU 4 
IRQ_R14 EQU 8 
Maskmd EQU Oxlf 
SYC32md EQU 0х13 
I Bit EQU 080 
іс Баѕе EQU 0x80000000 
IRQStatus EU 0х0 
IRORawStatus EDU 0х4 
IRQEnable EQU 0x8 
IRQEnableSet BU — Ox8 
IROEnableClear EQU üxc 
IRQ Entry 指令 
SUB т14,г14, 114 
STR rl4,[r13, ft IRQ R14] 
MRS rld,spsr 
STR r14,[r13, #180 враг] 
STR r0, [r23, # IRQ R0] 
MON rO,r13 
HRS гі4,сраг 
ВІС r14,r14, # Maskmd 
ORR r14,r14, # SVC32nd 
MSR cpar c,rld 
STR rl4,[r13,# -8]! 
LDR rl4,(r0, # IRQ R14] 
. STR r14,[r13, #4] 
LDR rid CrO, S IRQ враг] 
LDR rl4,[r0, # IRQ RO] 
БТМОВ т13]1,{т0—г3,гВ,г12,г14} 
LDR rl4 ,= ic Base 
LDR r8, (714, # IRQStatus] 
STR r8,[ 14, # IRüEnableClear] 
HRS rl4,CDpsr 
BIC 





г14,г14, # I Bit 


;模式 屏蔽 位 

;SYC 模式 

IPO fÈ 

状态 E 

12 1014 irq= 4 

2 SEE с14 іг 
2 ,复制 spsr 

2 + 保存 spsr 

2 тї 

3 ;Ж@т13_ич 
+3 

;3 

;3 

3 ЖА SUC 模式 
£ D r14 

{4 arid sve rld_irq 
4 R г14 іга 
14 arid sve = sper, irq 
14 ЖИ хо 

4 :保护 上 下 文 

:5 :中断 控制 如 地 址 
5 Khi k 
15 :清除 中 断 

16 ,rld svcs cpsr 
16 :清除 If 
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MSR cpsr, c,r14 6 ftit IRQ 中断 `° 
BL process interrupt 7 WA ISR А 
LDR rld ,- ic Баве ;9 и ЕДЫ Q 
STR r8 ,[r14, # IROEnableSet] 3 ЯФ о 
BL read RescheduleFlag 9 :更 密 的 处 理 9 
CHP го, #0 8 :是否 进一步 处 理 ? I 
LDMNEIA rl3f,(r0- r3,r8,rl2,r14) 8 ЖЕРТ 5 
MSRNE spar_cxsf ,rl14 8 :更 新 spsr zy 
LDMNEIA r13!,(r14.pe)^ 8 :返回 d 
LDMIA 7131, (r0 - 13,18) по ;否则 装载 寄存 器 = 
тив r131, {r0 ~ r11) 20 ЕХ 8 
BL continue servicing {11 ;继续 服务 a 
LDMIA r13l,(r0 - z12,r14! :12 ME ETTI 5 
MSR spsr cxsf,r14 ;12 :更 新 spsr = 
LDMIA r131, {r14, pol" 12 ,返回 (е! 


处 理 程序 的 开头 部 分 包括 一 个 普通 的 中 断 人 口 ,计算 返回 地 址 ,为 寄存 器 r14, irq 的 什 
WX 4, 

现在 重要 的 是 ,向 由 寄存 器 113. irq ПЕНИЕ ЕЕ НИКЕ ELS, RR FED 
寄存 器 有 rld irqsspsr irg 和 r0。 在 切换 到 SVC 模式 时 ,寄存 器 r0 用 来 为 数据 结构 体 传递 
指针 ,因为 寄存 器 r0 是 不 会 被 自动 分 组 保护 的 。 寄 存 磊 r13_ira Ж ЛИЕШ Н 的 的 原因 是 ， 
它 在 SVC 模式 下 是 不 可 见 的 。 | 

通过 复制 寄存 器 rl3 irq 的 值 到 ro 来 保存 指向 数据 结构 体 的 指针 。 
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АЯ ЖО 113, ип 开始 ) 值 
+0 КАП? 
+4 spat, irq 


T8 714, irq 


现在 ,处 理 程序 将 要 使 用 操作 cpsr 的 标准 方法 来 使 处 理 器 进入 SVC 模式 。SVC 模式 ' 
的 链接 寄存 器 rl4 保存 在 SVC 堆栈 。 堆 栈 指 针 减 去 8, 为 2 个 32 位 宇 提供 了 堆栈 空间 。 

然后 ,恢复 寄存 器 r14_irq, 并 保存 到 SVC, IEA IRQ 和 SVC 的 链接 寄存 器 都 保 
存在 SVC 堆栈 里 。 

其 余 的 IRQ 上 下 文 从 数据 结构 体 中 被 焦 复出 来 ,并 传递 到 SVC 模式 寄存 器 rld_svc 
现在 保存 的 是 IRQ 模式 的 spsr。 

接着 ,寄存 多 被 保存 到 SVC 堆栈 。 寄 存 器 r8 用 来 保存 中 断 的 屏蔽 码 ,这 些 中 断 是 被 处 
理 程序 禁止 的 ,它们 将 在 后 而 的 程序 中 被 重新 允许 。 


ARM 嵌入 式 系 统 开 发 


然后 ,中 断 源 被 清除 。 此 时 ,系统 (中 断 控 制 器 ) 要 对 中 断 进 行 优 先 级 排序 ,屏蔽 所 有 低 
于 当前 优先 级 的 中 断 , 以 免 其 打 断 高 优先 级 的 中 断 服务 。 中 断 优先 级 排序 将 在 本 章 的 稍 后 
讨论 。 

中 断 源 被 清除 后 ,重新 允许 IRQ 异常 就 安全 了 。 这 是 通过 清除 cpsr 中 的 1 位 来 实 
现 的 。 


EE: 中 断 控制 器 仍然 禁 止 外 部 中 尚 。 


现在 可 以 处 理 (服务 ) 这 个 中 断 了 。 中 断 处 理 过 程 不 应 该 进行 上 下 文 切 换 ,因为 外 部 中 
断 源 是 被 蕉 止 的 。 如 果 需 要 在 中 断 处 理 过 程 中 进行 上 下 文 切换 , 则 应 设置 一 个 标志 ,以 恒 中 
断 处理 程 序 能 获知 该 情况 。 现 在 ,重新 允许 外 部 中 断 是 安全 的 。 

处 理 程序 须 检查 是 否 需 要 做 进一步 的 处 理 。 如 果 寄 存 器 rO 的 返回 值 是 非 0 的 , 则 不 需 
要 再 做 处 理 ; 如 果 为 0, 则 处 理 程序 恢复 上 下 文 并 返回 到 被 挂 起 的 任务 。 

现在 需要 创建 一 个 堆栈 慎 来 完成 服务 例 程 。 这 是 通过 恢复 部 分 上 下 文 , 然 后 把 完整 的 
上 下 文 存 情 到 SVC 堆栈 来 实现 的 

调用 子 程序 continue_servicing, 完 成 对 中 断 的 服务 。 由 于 具体 情况 各 异 , 本 例 设 有 提 
供 该 子 程序 的 源 代码 。 

完成 中 断 例 程 服务 后 ,控制 权 交 还 给 被 挂 起 的 任务 。 


A £ WE) TS E 
e 处 理 多 个 优先 级 被 排序 的 中 断 ; 
e 较 低 的 中 断 延 退 ; 
e 优点 :根据 优先 级 处 理 中 断 ， 
e 缺点 ; 变 得 更 复杂 。 


9.3.4 优先 级 简单 中 断 处 理 


非 夺 套 与 嵌 套 中 断 处 理 都 以 先 来 先 服务 的 原则 为 中 断 提供 服务 。 与 之 相 比 , 有 优先 级 
的 中 断 处 理 程 序 ,将 一 个 特定 的 中 断 源 与 优先 级 联系 起 来 ,优先 级 用 来 指示 中 肠 得 到 服务 的 
次 序 。 因 此 ,一 个 高 优先 级 的 中 断 将 比 一 个 低 优 先 级 的 中 断 优先 得 到 服务 ,这 在 许多 柑 人 人 式 
系统 中 是 必需 的 。 

进行 优先 级 排序 (prioritization) 可 以 由 硬件 或 软件 来 完成 。 对 于 硬件 优先 级 处 理 , 程 
序 设计 比较 容易 ,因为 中 断 控制 器 会 提供 当前 需要 服务 的 最 高 优先 级 的 中 断 。 这 些 系 统 在 
局 动 时 要 求 更 多 的 初始 化 代码 ,因为 在 系统 正常 运行 前 ,必须 构造 中 断 和 和 与 之 相 联 系 的 优先 
级 表 。 而 对 于 软件 优先 级 处 理 , 也 需要 外 部 中 断 控 制 器 的 协助 ,但 这 种 中 断 控制 器 只 提供 一 
些 最 基本 的 功能 ,包括 设置 和 消除 屏蔽 码 , 读 中 断 状态 和 中 断 源 。 
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9 异常 和 中 断 处 理 


本 小 节 将 介绍 一 种 精 选 的 软件 优先 级 处 理 技术 ,因为 它 是 一 种 通用 的 方法 ,不 依赖 某 个 
特定 的 中 断 控制 器 。 为 了 有 助 于 描述 这 个 优先 级 中 断 处理 程 序 ,而 不 涉及 具体 的 处 理 器 区 
片 ,这 里 引入 一 个 基于 ARM 标准 中 断 控制 器 的 虚构 的 (fictional) 中 断 控制 器 。 这 个 控制 右 
连接 多 个 中 断 源 ,并 根据 中 断 源 是 否 被 允许 来 产生 一 个 IRQ 或 FIQ 虚拟 信和 号。 

图 9. 11 显示 了 一 个 简单 优先 级 中 断 处理 程 序 的 流程 图 , 它 是 基于 可 重信 中 断 处 理 程 
序 的 。 





中 断 






保护 最 少量 上 下 文 
获得 外 部 中 断 状态 


确定 中 断 优先 级 和 
被 屏蔽 的 低 优先 级 
中 断 ， 允 许 中 断 













跳 转 到 服务 例 程 


在 外 部 中 断后 打开 
内 部 中 断 





图 9.11 优先 级 中 断 处 理 程序 


【 例 9.11】 这 个 中 断 控制 器 有 一 个 寄存 器 (IRQRawStatus) 来 保存 原始 的 中 断 状 态 
一 被 中 断 控制 器 屏蔽 之 前 的 中 断 信号 状态 。IRQEnable 寄存 器 确定 哪个 中 断 是 被 处 理 
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器 屏蔽 的 ,这 个 寄存 器 只 能 用 IRQFEnableSet fl IRQEnableClear 来 设置 或 清除 。 表 9.10 说 
明了 中断 控 制 器 中 的 各 个 寄存 器 名 称 .从 控制 器 基地 址 开始 的 偏 称 量 ,. 读 / 写 操 作 和 寄存 器 








的 描述 。 
59.10 ОЮ ЫШТЕ 

TAE LI 4/5 o Hoi 
IRQRawStatus 40х04 T 表示 中 断 源 的 状态 
IRQEnable +0х08 r 屏 项 向 内 核 产 生 IRQ Ж FIQ 的 中 断 源 
IRQStatus -- 0x00 r 表示 屏 做 后 的 中 断 源 状态 
IRQEnableSet -F0x08 w "rfe d fr as W u 
IRQEnableClear +0х0е w TRE РНЕ 

I Bit EQU 0x80 

PRIORITY 0 EQU 2 ¡Comms Rx 

PRIORITY 1 EQU 1 ;Comms Tx 

PRIORITY 2 EQU 0 ;Timer 1 

PRIORITY 3 EQU 3 ; Timer 2 

BINARY 0 EQU 1 << PRIORITY 0 {1 << 2 0х00000004 

BINARY 1 EQU 1 << PRIORITY 1 ¿1 << 1 0x00000002 

BINARY 2 EQU 1 «« PRIORITY 2 ;1 «c 0 0х00000001 

BINARY 3 EQU 1 «« PRIORITY 3 ji << 3 0х00000008 

MASK 3 EQU BINARY 3 

MASK 2 EQU MASK 3 + BINARY 2 

MASK 1 EQU MASK 2 + BINARY 1 

MASK 0 EQU MASK 1 + BINARY 0 

ic Base EQU 000000000 

IRQStatus EQU 0х0 

IRQRawStatus EQU Üx4 

IROEnable EQU Оха 

IRQEnableSet EQU 0х8 

IRüEnableClear EQU Охе 








9 ШШ ЮЙЛЕ 


IQ Handler ;指令 状态 ,注释 一 
SUB г14,г14,#4 ;2 í rl4 irq -= 4 各 
STMED r13!, (r14] 12 ; 保存 г14 іга (D 
HRS rl4,.spsr ;:2 ;复制 apsr. irq U 
STHED r13!, (r10,r11, 712,714) :2 :保护 上 全文 9 
LDR r14, = ic Base ;3 : rh I EET 2 
MOV rll, itPHIORITY 3 Ba ЖААЖ Q 
LDR г10, [ri4, # IRQStatus] ;3 ;装载 IMRE = 
TST г10, 3t BINARY 3 41 如果 中 断 源 为 定时 髓 2 Ф 
МОТКЕ rli, Ф РВІОВЈТҮ 3 4: ИҢ A Р3(10) 5 
TST 110, BINARY 2 14 : 如 果 中 断 源 为 定时 右 1 I 
MOVKE x11, jf PRIORITY 2 ;4 . Ne F Q 
TST г10, # BINARY 1 #5: WR 8 8 938 18 2 Q 
МОЛЕ r11, #РАТОВІТҮ } 4: 则 优先 级 为 Pl @ 
TST r10, it BINARY 0 TER 如果 中 断 源 为 通信 接收 
MOVRE rll, # PRIORITY 0 4. Юй PO(hi) 

LDR г12,[х14, # IBQEnable] 4: IRüEnable ҖЕ 
ADR ri0,priority masks i4 BERE MEE 

ШВ г10,[210,111,151 #2] )4 i КЕЙ 

AND r12,r12,r10 ТАЮ 允许 审 存 器 
STR £12, [114, # IRQEnableClear] 4 :清除 中 斯 

MRS rl4,cpsr 4 1 BRE CESR 337 
BIC rl4,rid, ffl Bit 4 W. I 

MSR cpsr. c,rid 41 ЛУ IRQ FP RT 
LDR рс, Гре, r11, 1512] ;5 + ВЈ F ISR 
НОР | 

DCD gervice timerl ЕИ 1 ISR 

DCD service commtx | + 通信 和 发送 ISR 

DCD service commrx | ;通信 接收 ISR 

DCD service timer2 is I 2 ISR 


priority masks 


DCD MASK 2 ЛЕЕВ 2 


DCD MASK 1 ЛЯЖЕ 1 
DCD MASK 0 UL sc BEC 0 
DCD MASK 3 Е BL RES 3 
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> service timerl 

< STMFD  r13!,(r0- r9) ;6 ; 保护 上 下 文 
p ;三 服务 例 程 二 

d LDMFD  r13!,(r0- r10) ;7 ; 恢复 上 下 文 
3 MRS rll,cpsr ;8 ; 复制 cpsr 
口 ORR г11,г11, #I_Bit ;8 : 设置 I 位 
Ф MSR cpsr c,rll ;8 ; 禁止 IRQ 
Š LDR r11 , = ic Base ;8 ; 中 断 控制 器 地 址 
Š STR r12,[r11, # IRQEnableSet ] ;8 ; 允许 中 断 
Ф LDMFD  ri3!,(rll,rl2,r14) ;9 ; 恢复 上 下 文 
Q MSR spsr, cxsf ,r14 ;9 ; 设置 spsr 
S LDMFD  r13!,(pc) ;9 ; 返回 

Ф 


对 于 FIQ 异常 ,大 多 数 中 断 控制 器 还 有 一 组 相应 的 寄存 器 ,甚至 允许 单独 的 中 断 源 使 
用 特定 的 信号 来 申请 内 核 中 断 。 因 此 ,通过 编程 中 断 控制 器 ,一 个 特定 的 中 断 源 就 可 以 产生 
—^r IRQ X; FIQ 异常 。 

在 存储 空间 中 ,寄存 器 位 于 从 某 个 基地 址 开始 的 特定 偏 移 量 处 。 表 9.10 列 出 了 以 中 断 
控制 器 基地 址 ic_Base 开始 的 各 寄存 器 偏 移 量 。 


注意 : IRQEnable 5 IRQEnableSet 都 使 用 偏 移 量 0x08, 


在 中 断 控 制 器 中 ,每 一 位 都 与 一 个 特定 的 中 断 源 关 联 起 来 ( 见 图 9. 12)。 例 如 ,位 2 对 
应 的 是 串口 通信 的 接收 中 断 。 
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В 9.12 32 位 中 断 控制 寄存 器 


PRIORITY x 定义 了 在 本 例 中 用 到 的 4 个 中 断 源 ,并 使 其 分 别 对 应 于 不 同 的 中 断 优先 
级 。PRIORITY_0 是 优先 级 最 高 的 中 断 ,PRIORITY_3 是 优先 级 最 低 的 中 断 。 
BINARY. x 为 每 种 优先 级 提供 了 位 格式 。 例 如 ,对 于 一 个 PRIORITY_0 的 中 断 , 其 
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二 进 制 位 格式 是 0z00000004( 即 1 << 2)。 对 每 个 优先 级 来 说 ,都 有 一 个 相应 的 屏 项 码 , 用 
来 屏 项 优先 级 相同 或 更 低 的 中 断 。 例 如 ,MSK_2 会 屏蔽 定时 器 2( 优 先 级 为 3 和 串口 接收 
(优先 级 为 2) 中 断 。 

中 断 控制 器 的 地 址 定 兴 也 列 出 来 了 。ic_PBase 是 基地 址 ,其 祭 的 定 文 ( 如 IRQStatus) #Ë 
是 以 这 个 基地 址 开始 的 偏 移 量 。 

优先 级 中 断 处 理 程序 从 标准 的 人 口 开 始 , 但 起 初 上 只 有 IRQ 链接 寄存 器 被 保存 到 IRQ 

搂 下 来 处 理 程序 得 到 spsr, 并 将 其 内 容 保存 在 寄存 器 114 irq ,释放 ~- 组 寄存 器 ,以 便 在 
进行 优先 级 排序 Cprioritization) 时 使 用 。 

处 理 程序 需要 获得 中 断 控制 器 的 状态 ;这 是 通过 装载 中 断 控制 器 的 基地 址 到 寄存 器 
rl4, 并 用 ic_Base( 寄 存 器 r14) 30183 R IRQStatus(0x00) 把 状态 信息 装载 到 寄存 器 r10 来 
实现 的 。 

然后 ,处 理 程 序 需 要 通过 测试 状态 信息 来 确定 优先 级 最 高 的 中 断 。 如 果 一 个 特定 的 中 
断 源 与 某 个 优先 级 相 匹配 ,那么 在 寄存 器 rl11 中 就 设置 这 一 优先 级 。 这 种 方法 把 中 断 涯 与 
所 有 设置 的 优先 级 进行 比较 ,从 最 低 优 先 级 开始 ,一 直到 最 高 优先 级 。 

经 过 这 一 段 代码 后 ,寄存 器 rl4_irq 将 保存 中 断 控制 器 的 基地 址 ,寄存 器 rll 将 保存 优 
先 级 最 高 的 中 断 的 位 号 (bit numbetr)。 现 在 重要 的 是 禁止 低 优 先 级 和 同 级 的 中 斯 ,而 仍然 
允许 更 高 优先 级 的 中 断 打 断 这 一 处 理 程序 。 


注意 ; 这 种 处 理 方法 趴 有 更 好 的 时 间 确 定性 ,因为 花 在 查找 标高 优先 饭 中 断 的 时 间 总 是 一 样 的 。 


为 了 设置 控制 器 中 的 中 断 屏 项 码 ,处 理 程序 必须 确定 当前 ТКО 使 能 寄存 器 的 内 容 , 并 
旦 获得 优先 级 屏蔽 码 表 的 起 始 地址 。priority_masks 定义 在 处 理 程 序 的 最 后 。 

寄存 器 rl2 现在 保存 的 是 IRQ ETEA КИЕ. ЖТ n0 保存 的 是 优先 级 表 的 起 始 
地 址 。 为 了 得 到 正确 的 屏蔽 码 , 寄 存 111 左 称 2 位 (使 用 桶 形 移 位 器 LSI 并 2)。 这 使 得 
地 址 乘 以 4 并 加 到 优先 级 表 的 起 始 地 址 上 去 。 

寄存 器 TIO 包含 了 新 的 屏 项 码 。 下 一 步 是 使 用 这 个 屏蔽 码 来 清除 低 优先 级 中 断 ; 先 把 
这 一 屏蔽 码 和 寄存 咒 r12(IRQEnable 寄存 器 的 内 容 ) 进 行 二 进 制 逐 辑 “与 ,再 把 结果 写 到 
寄存 器 IRQEnableClear。 现 在 通过 清除 cpsr 中 的 i 位 来 使 能 IRQ 异常 就 安全 了 ， 

最 后 ,处 理 程序 跳 转 到 正常 的 服务 例 程 ,这 是 通过 修改 寡 存 回 r11( 它 仍然 保存 着 最 高 
优先 级 的 中 断 ) 和 pe 来 实现 的 。 直 接 把 服务 例 程 的 地 址 装载 到 pe SERERE 211 左 移 2 位 , 即 
乘 以 4, 再 与 pc 相 加 ) ,就 使 处 理 程序 跳 转 到 正确 的 例 程 。 

ВНЕЛЕ pc 的 指令 。 在 操作 pc 的 指令 与 跳 转 表 之 间 有 -条 NOP 指令 , 因 
为 pc 指向 超前 了 2 条 指令 ( 即 8 字 节 )。 优 先 级 屏蔽 码 表 是 接 中 断 源 对 应 的 位 排序 的 。 
每 个 ISR 使 用 相同 的 人 口 处 理 方法 ,例子 给 出 的 是 merl 中 断 服务 程序 。 
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在 上 述 中 断 入 口 处 理 { 头 部 ) 之 后 ;是 具体 的 ISR, — Н ISR 完成 ,中 断 源 必须 被 复位 
(清除 ) ,并 把 控制 权 交 还 给 被 中 断 的 任务 。 

在 申 断 可 以 重新 打开 前 ,处 理 程序 必须 禁止 IRQ。 现 在 ,外 部 中 断 可 以 恢复 成 原 值 ,这 
一 点 是 可 以 做 到 的 ,因为 服务 例 程 设 有 修改 寄存 器 112, 它 仍然 保持 最 初 的 值 。 

为 了 返回 到 被 中 断 的 任务 ,需要 恢复 上 下 文 , 并 把 最 初 的 spsr 复制 到 spsr. irg. 


h # ЯШЕН ДАНЕ 
e 处 理 有 优先 级 的 中 断 ; 
e WEITER: 
e UL LR EDS TRISTE REOR BE Н]. B ЖЖ E ЛЕ АВЕС K SR 9 ИТ. EL HI 
用 服务 ; 
e 缺点 :获得 一 个 惰 优 先 级 的 服务 例 程 所 用 的 时 间 ,与 一 个 高 优先 级 的 例 程 一 样 长 。 


9.3.5 优先 级 标准 中 断 处 理 


从 优先 级 简单 中 断 处 理 继续 发 展 下 去 ,处理 程 序 的 复杂 度 进一步 提高 。 优 先 级 简单 处 
理 程 序 采用 测试 所 有 的 中 断 来 确定 最 高 优先 级 一 一 这 是 一 种 效率 较 低 的 方法 ;但 也 有 其 优 
点 , 即 响应 时 间 的 确定 性 ,因为 每 个 中 断 优先 级 都 会 花费 同样 长 的 时 间 得 到 确认 。 

一 种 较 好 的 营 换 办 法 就 是 ,在 高 优先 级 中 断 被 确认 后 ,程序 尽早 地 胱 转 ( 见 图 9. 13) ,一 
且 确 认 优 先 级 ,就 设置 pc 立即 跳 转 。 这 意味 着 对 于 优先 级 标准 中 断 处 理 程 序 来 说 ,代码 对 
中 断 优 先 级 的 确认 部 分 更 为 复杂 。 确 认 部 分 将 决定 优先 级 ,并 立即 跳 转 到 一 个 屏 项 低 优先 
级 中 断 的 例 程 ,然后 再 通过 一 个 遇 转 表 跳 转 到 合适 的 ISR, 


С 9. 12】 一 个 优先 级 标准 中 断 处 理 程序 的 开头 部 分 与 一 个 优先 弘 简 单 中 断 处 理 程 
序 类 似 , 只 是 更 早 地 拦截 了 高 优先 级 的 中 断 。 寄 存 器 r14 用 来 指向 中 断 控制 器 的 基地 址 , 寡 
存 器 r10 用 来 保存 中 断 控制 器 的 状态 寄存 加 内 容 。 为 了 允许 处 理 程序 重 定位 ,pe 指向 的 当 
前 地 址 被 保存 到 寄存 器 r11。 

现在 可 以 通过 比较 最 高 到 最 低 优先 级 来 测试 中 断 源 了 。 第 一 个 与 中 断 涯 匹配 的 优先 级 
决定 了 引入 中 断 的 优先 级 ,因为 每 一 个 中 断 都 预先 设 定 了 优先 级 。 一 日 匹配 成 功 , 处 理 程序 
就 可 以 跳 转 到 屏蔽 低 优 先 级 中 断 的 程序 中 。 


I Bit EQU 080 


PRIORITY 0 EQU 2 ;通信 接收 Rx 
PRIORITY 1 EQU 1 ПЕЕ ЖОЕ Tx 
PRIORITY 2 EQU 0 定时 器 1 
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图 3.13 优先 级 标准 中 疡 处 理 的 部 分 程序 
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р PRIORITY 3 ш 3 БЕЙ 2 
2 BINARY 0 EQU 1 << PRIORITY 0 ;1 << 2 0х00000004 
T BINARY 1 EQU 1 << PRIORITY 1 ‚1 << 1 0x00000002 
- BINARY 2 EQU ] << PRIORITY 2 {1 << Ü 0х00000001 
C BINARY 3 EQU 1 «« PRIORITY 3 {1 << 3 0к00000008 
2 
° MASK 3 EQU BINARY 3 
T MASK 2 EDU  HASK 3- BINARY 2 
о MASK 1 EQU MASK 2 + BINARY 1 
р) МАЗК_0 EQU МАК 1 + BINARY 0 
c. 
Q 
Ф іс Ваѕе EQU 0х80000000 

IRQStatus EQU 0х0 

IRQRawStatus EQU 0х4 

IRQRnable EQU 0х8 


IROEnableSet ЕЈ 0х8 
IRQEnableClear EQU Üxc 


IRO Handler ;指令 状态 ЕЕ 
. SUB rl4,r14, #4 22 : 114 irg -= 4 
342 gTMFD r13!, (x14) 12: 保存 гі4 inq 
МЕЗ rl4,spsr 12 ; Ж зрэг ira 
STMFD r131,[r10,r1l,r12,r14] 2. IEP E FX 
LDR rld ,= ic Base ;3 ; 中 断 控 制 器 地 址 
LDR ri0,[rl4, # IRÜStatus] ;3 ， 装 载 IRQ 状态 
MOV г11,ре 4: Я pe 
TST с10, # BINARY 0 | ;5 ; 如 果 中 断 源 为 通信 接收 
BLNE disable lower 45 , ШИ 
TST г10, # BINARY 1 ;5 : 如果 中 断 源 为 通信 发 送 
BLNE disable lower 5: REESE 
TST r10, # BINARY 2 ;5 ， 如 果 中 断 源 为 定时 器 1 
BLNE disable lower :5 ， 出 跳 转 
TST rio, # BINARY 3 ;5 : 如 果 中 断 源 为 定时 器 2 
BLNE disable lower ,5, 则 跳 转 


disable lower 


SUB rli,rlá4,rll 15 1 rll-r14 - pc f Ж 
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LDH т12 ,= priority table 15 « 优先 级 表 地 址 © 
LDRB rll.[r12,z11.1$R #3] 15 : пела tb] + (z11 >> 3)] x 
ADR r10,priority masks ;5 ; НАЕ Ф 
LDR rlü,[rl0,r11,LSL #2] ;5 : 装载 优先 级 屏蔽 码 О. 
LDR ri4 ,= ic Base 16 ; 中 斯 控制 器 地 址 9 
LDR 712, [r14, # IROEnable] ;6 .IBQ feld EE > 
AND r12,r12, г10 ;6 , AND Z E EE С) 
SmR 712, [14, 4 IBüEnableClear] ;6 : 允许 新 中 断 3 
HRS r14, cpsr ;7 ,复制 cpsr © 
BIC г14,г14, #І Bit 7 ЕТ 5 
MSR cpsr c,ri4 ;7 a ftit IRQ I 
LDR pe [pes rll, LSL jt 2] ;8 ; BEREBI— І58 Q 
NOP о. 
DCD service timer] 1 定时 骨 1 ISR & 
DCD service commtx А/К uk ISR 

DCD service commrx : ХАА HEC ISR 


DCD service timer2 ;定时 器 2 ISR 


priority masks 


DCD MASK 2 ЖЕН 2 

DCD MASK 1 o РЕЙШИ 1 

DCD MASK O` ;优先 级 屏蔽 码 0 343 
DCD MASK 3 :优先 级 屏蔽 码 3 

priority table 

DCB PRIORITY 0 ;优先 级 0 

DCB PRIORTTY 1 :优先 级 1 

DCB PRIORITY 2 ;优先 级 2 

DCB PRIORITY 3 ;优先 级 3 


ALIGN 


为 了 禁止 同 级 或 低级 优先 级 中 断 , 处理 程序 进 人 一 个 例 程 , 它 首 先 使 用 寄存 器 r11 中 的 
基地 址 和 链接 寄存 器 r14 来 计算 优先 级 。 

完成 SUB 指令 后 ,寄存 器 rli 的 值 将 为 4,12,20 或 28。 这 些 值 对 应 于 中 断 优先 级 习 凡 
8 再 加 上 4。 然 后 寄存 器 ril 除 以 8 ,并 与 priority table 的 地 直 相 如 。LDRB 指令 执行 后 ， 
寄存 器 r11 将 为 中 斯 优先 级 号 0,1,2 或 3 之 一 ， 

现在 可 以 确定 中 斯 屏蔽 码 了 011 左 移 2 位 再 加 到 寄存 器 r10( 寄 存 器 r10 中 保存 了 pri- 
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ority mask BJ Bh HL), 

中 断 控制 器 的 基地 址 被 复制 到 寄存 器 r14_irq, 用 来 读 取 控 制 器 中 IRQEnable 害 存 器 的 
内 容 ,并 存 人 寄存 器 1012, 

寄存 器 r10 包含 了 新 的 屏蔽 码 。 下 一 步 是 使 用 这 个 屏 项 和 码 来 清除 低 优 先 级 中 断 : 先 把 
这 一 虱 栈 码 和 寄存 器 r12(IRQEnable 寄存 器 的 内 容 ) 进 行 二 进 制导 辑 “ 与 ”再 把 结果 写 到 
寄存 器 IRQEnableClear。 现 在 通过 清除 cpsr 中 的 i 位 来 使 能 IRQ 异常 就 安全 了 ， 

最 后 ,处 理 程 序 跳 转 到 正常 的 服务 例 程 ,这 是 通过 眉 改 寄存 器 rl1( 它 仍然 保存 着 最 高 
优先 级 的 中 断 ) 和 p 来 实现 的 。 直 接 把 服务 例 程 的 地 址 装载 到 pc 寄存 器 r11 左 称 2 位 , 即 
ЖШ 2,85 pc 相 加 ) ,就 使 处 理 程 序 嘴 转 到 正确 的 例 程 。 跳 转 表 必须 跟 在 装载 pc 的 指令 后 
H. ERRES LDR 指令 间 有 一 条 NOP 指令 ,因为 pc 的 指向 超前 2 条 指令 ( 即 8 E). 


ЖЖ: 优先 级 屏 项 码 表 是 接 中 断 性 排序 的 :而 优先 级 表 是 接 优 先 绒 次 序 排 序 的 。 


№ £ IESHSUE IE ANTE 
e 进入 高 优先 级 的 中 断 服务 时 间 比 进 人 低 优 先 级 的 中 断 服务 时 间 更 短 ; 
e 较 低 的 中 断 延 迟 ; 
e 优点 :高 优先 级 中 断 得 到 优先 处 理 ,并 不 要 复制 代码 来 设置 外 部 中 断 屏蔽 ， 
e 缺点 :时 间 上 有 有 有些 损失 ,内 为 这 种 处 理 程 序 需要 2 次 跳 转 , 导致 流 水 线 在 每 次 跳 转发 
生 时 被 刷新 。 


9.3.6 优先 级 直接 中 断 处 理 


优先 级 直接 中 断 处 理 与 优先 级 标准 中 断 处 理 的 区 别 之 一 是 :一 些 操作 被 移出 中 断 人 关口 
处 理 程序 ,而 放 到 各 自 的 ISR 中 。 被 移出 的 包括 屏蔽 低 优先 级 中 断 的 代码 。 每 个 ISR 都 将 
屏蔽 掉 相 对 于 自身 的 低 优先 级 中 断 , 由 于 预先 设 定 了 每 个 中 断 的 优先 级 ,所 以 优先 级 是 一 个 
固定 的 值 。 | 

之 二 是 :优先 级 直接 中 断 处 理 程序 直接 跳 转 到 合适 的 156, 每 个 ISR 在 修改 cpsr 重新 
允许 中 断 前 ,要 禁止 低 优 先 级 的 中 断 。 这 种 类 型 的 处 理 程序 头 部 相对 简单 ,因为 屏蔽 工作 是 
由 各 自 的 ISR 完成 的 。 但 这 样 会 带 来 少量 的 重复 代码 ,因为 每 一 个 中 断 服 务 例 程 都 必须 完 
成 这 一 任务 。 


[519.13] bit x 定义 把 一 个 中 断 源 与 中 断 控 制 嚣 中 的 某 一 位 对 应 起 来 ,用 以 一 个 ISR 
内 屏蔽 低 优先 级 的 中 断 。 


保存 好 上 下 文 后 ,ISR 表 的 基地 址 就 被 装载 到 寄存 器 12. — B h KR 06 1 ВА 
XE ,使 用 寄存 器 r12 就 可 以 跳 转 到 正确 的 ISR, 
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I Bit EQU 0x80 9 
" 
PRIORITY 0 EU 2 ;通信 接收 D 
PRIORITY 1 EQU 1 ;通信 发 送 8 
PRIORITY_2 EQU 0 1 定时 器 1 S 
PRIORITY, 3 Ери 3 ;定时 器 2 2 
Ü 
BINARY 0 EQU i «« PRIORITY 0 {1 << 2 Ox00000604 3 
BINARY 1 EQU 1 << PRIORITY 1 {1 << 1 0x00000002 Ф 
BINARY 2 EQU 1 «« PRIORITY 2 ;1 << 0 0x00000001 5 
BINARY, 3 EQU 1 << PRIORITY 3 +1 << 3 0x00000008 T 
Q 
MASK 3 EQU — BINARY 3 a 
MASK 2 EQU — MASK 3 * BINARY 2 = 
MASK 1 EQU МАЗК 2 + BINARY 1 © 
MASK 0 EQU — MASK 1 + BINARY O 
ic Base EQU 0х80000000 
IRQStatus EQU 0х0 
IRORawStatus EQU 0х4 
IROEnable EQU 0х8 
IRQEnableSet EQU  Ox8 345 
IRQEnableClear EQU Üxc 
bit timeri EQU 0 
bit commtx 1 
bit commrx EQU 2 
bit timer2 EQU 3 
IRQ Handler I Е 
SUB г14,г14, #4 ;rl4 irq--24 
STMFD г1з[,{г14) ;保存 rtd_irg 
MRS rlíé,spsr 1 复制 Spsr irq 
STMFD r13! ,(r10,rll,rl2,r14! 1 保护 上 下 文 
LDR rld ,= ic Base ; B АЕН 
LDR r10,[ri4, 4f IRQStatus] ;装载 IR9 状态 


ADR ri2,isr table {得 到 ISR 表 地 址 
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> TST r10, # BINARY 0 ;如 果 中 断 源 为 通信 接收 
z LDRNE po, [riz ф PRIORITY 0 << 21 ДЖ ИЖ ISR 
° TST r10,1t BINARY J DAR h i 88 АЯК 
e LDRNE pc. [r12, # PRIORITY 1 << 2] : 则 跳 转 到 通信 发 送 ISR 
5 TŠT rlo, # BINARY 2 LJ E rp ЕЕ ЛТ! 
g LDRNE pe. [r12, # PRIORITY 2 ¿< 2) ; 则 跳 转 到 定时 器 1 ISR 
TST 710, # BINARY 3 ;如 果 中 断 源 为 定时 器 2 
L LDRNE рс,Ге12, # PRIORITY. 3 << 2] ; 则 跳 转 到 定时 器 2 ISR 
9 B Service none 
рУ 
Ф іѕг table 
Е. DCD service timerl 1 定时 器 1 ISR 
Ж ПС) Service, сопліх ; 通 傅 发 送 ISR 

DCD service commrx :通信 接收 ISR 

DCD service timer2 ;定时 器 2 ISR 

priority masks 

DCD MASK 2 ;优先 级 屏蔽 码 2 

DCD MASK 1 ;优先 级 屏蔽 码 1 

DCD MASK 0 КУ 0 

DCD MASK 3 


优先 级 屏蔽 码 3 


MOV rll, ¢#bit timerl 复制 bit timer] 
LDR rl4, = іс Base :中断 控制 器 地 址 
LDR г12, [714, ft IRQEnable] ;IRQ foi HERES 
ADR 10, priority masks # 得 到 地 址 优先 级 地 址 
LDR r10, [r10,r11,L5L 8E 2] ;装载 优先 级 屏蔽 码 
AND r12, r12, r10 ;AND 允许 寄存 器 
STR ri2, (x14, # IRQEnableClear] HEBR DR 
MRS г14, cpsr ;复制 cpsr 
BIC rld, r14, #I Bit Тб 
MSR Cpsr c, г14 :允许 IRQ 
< ISR НА alay > 


优先 级 中断 的 确定 是 通过 从 最 高 优先 级 中 断 开始 ,向 下 直到 最 低 优先 级 中 断 的 检查 来 
实现 的 。 优 先 级 中 汤 一 旦 确定 ,就 把 合适 的 ISR 地 址 装载 到 рс. isr_table 中 保存 的 间接 
地 址 加 上 优先 级 左 移 2 ARU 4) 。 或 者 可 以 使 用 条 件 分 支 指令 BNE 来 跳 转 到 合适 
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的 ISR. 

ISR 跳 转 表 isr table 是 以 最 高 优先 级 的 中 断 为 开始 排序 的 。 

service timerl 人 口 部 分 说 明了 优先 级 直接 中 断 处 理 程序 使 用 的 ISR 例子 。 每 个 ISR 
都 是 惟一 的 ,依赖 于 特定 的 中 断 源 。 

中 断 控制 器 的 基地 址 复制 到 寄存 器 rl4_irq。 这 个 地 址 加 上 一 个 偷 称 量 用 来 复制 
IRQEnable 寄存 器 的 内 容 到 寄存 器 r12。 

优先 级 屏 项 码 表 的 地 址 应 复制 到 寄存 器 +10, 以 便 用 来 计算 实际 屏 项 码 的 地 址 。 寄 存 
Aril 左 移 2 位 ,产生 0,4,8 ER 12 字 节 的 偏 称 。 这 个 候 移 量 加 上 优先 级 屏蔽 码 表 的 基地 
址 ,就 可 以 把 屏蔽 码 装 载 到 寄存 器 r10。 这 里 的 优先 级 屏蔽 码 表 与 上 一 节 的 相同 。 

寄存 器 r10 包含 了 ISR RÉEL SERERE ri2 包含 了 当前 屏蔽 码 , 用 一 个 二 进 制 “与 "来 合 
并 这 2 个 屏蔽 码 。 然 后 使 用 新 的 屏 项 码 ,通过 IRQEnableClear 寄存 器 来 配置 中 断 控制 器 。 
现在 通过 清除 cpsr 里 的 i 位 来 允许 IRQ 异常 就 安全 了 ， 

处 理 程序 可 以 继续 为 当前 的 中 断 服 务 ,除非 有 更 高 优先 级 的 中 断 发 生 , 那 样 的 话 , 高 优 
先 级 的 中 断 将 打 断 当前 的 中 断 服务 。 


^ # ҖӘЯ АЕ 
Ф ЖЕЗ B9 ЦИП И {ЖУ Р ИЛ. ТЕЗЕЛЕШ ISR; 
e (REPES; 
e 优点 ,使 用 简单 的 跳 转 ,为 进入 ISR 节省 了 宝贵 的 时 间 ; 
e 缺点 :每 个 ISR 都 需要 设置 外 部 中 断 屏蔽 码 ,以 阻止 低 优先 级 中 有 断 打 断 当前 的 ISR, 
这 使 每 个 ISR 增加 了 额外 的 代码 。 


9.3.7 优先 级 分 组 中 断 处 理 


优先 级 分 组 中 断 处 理 与 其 它 优先 级 中 断 处 理 不 同 , 它 是 针对 大 量 的 中 断 集 而 设计 的 ,是 
通过 把 中 断 分 组 并 形成 具有 同一 优先 级 的 子 集 来 实现 的 。 

一 个 左 人 式 系 统 的 设计 者 必须 明确 每 个 子 集 的 中 断 涯 ,并 为 该 子 集 赋予 一 个 组 优先 级 。 
由 于 各 组 决定 了 系统 的 特性 ,在 为 中 断 源 进 行 选择 分 组 时 和 需 阅 慎 , 这 一 点 很 重要 。 把 中 断 源 
集中 管理 ,相对 降低 了 处 理 程序 的 复杂 度 , 因 为 没有 必要 依次 检查 每 个 中 断 , 以 确定 优先 级 ， 
如 果 一 个 优先 级 分 组 中 断 处 理 程序 设计 得 好 , 则 可 大 大 改善 系统 整体 的 响应 时 间 ， 


【 例 9. 14】 针对 2 个 优先 级 组 设计 的 处 理 程序 。 
定时 器 中 断 源 被 划分 到 组 6, 通信 中 断 源 被 划分 到 组 1( 见 表 9.11)。 组 0 的 中 断 优 先 
SIGN. | 
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> жоп 分 组 中 断 源 
< 
- 分 组 tk 
á 0 定时 器 І.Е 48 2 
3 1 ЖИ ЯЗА ARER 
9 
Ф I Bit EQU 0х80 
D 
Q 
g PRIORITY 0 EU 2 ;通信 接收 
d PRIORITY 1 EU 1 ;通信 发 送 
Q PRIORITY 2 EQU 0 ;定时 器 1 
ë PRIORITY 3 EU 3 ;定时 器 2 
(o 
BINARY 0 EQU 1 z< PRIORITY 0 ;1 << 2 0x00000004 
BINARY 1 EQU 1 << PRIORITY 1 {1 << 1 0x00000002 
BINARY 2 EQU 1 << PRIORITY 2 {1 << 0 0x00000001 
BINARY 3 EQU 1 << PRIORITY 3 ,1 << 3 0х00000008 
GROUP 0 EQU — BINARY 2|BINARY 3 
GROUP 1 EQU — BINARY O|BINARY 1 
348 GMASR 1 EQ GROP 
GMASK D EQU (МАК 1 + GROUP 0 
MASK TIMERI EQU — GMASK Q 
MASK COMMTX EU — GMASK 1 
MASK COÓMMRX EQU. — GMASK 1 
MASK TIMERZ EQU — CMASK 0 
ic Base EQU ‚0х80000000 
IRQStatus EQU DxÜ 
IBQRawStatus EQ ом 
IBQEnable. EQU Охе 
IRQEnableSet EQU Оха 
IROEnableClear EQU Duc 


Interrupt handler 


SUB г14,г14, #4 iT14_irg-= 4 © 
STHED r13!, {r14} ;保存 114 irq x 
MRS г14,5рвг ;复制 spsr irq 0 
STHED rl3!,(rlO,ril,rl12,rl4] + 保护 上 上 下文 о. 
LDR rld ,= ic, Hase P ШЕЛ SEHE hi: S 
LDR ri0,[r14, # IRQStatus] ;装载 IBQ 状态 P 
ANDS г11,г10, # GROUP 0 属于 GROUP 0 © 
ANDEQS rll,rl0, # GROUP 1 1 属于 GROUP_1 i 
AND г10,г11, #0xf ERES 24 i o 
ADR rli,lowest significant bit (#8 LSB 地址 5 
LDRB r11,[r11, r10] ;装载 字 节 了 
B disable, lower, priority ‚ЖЫ Bj g O 
а 
lowest significant, bit & 


x 
+ 


DCB 








0 1234567839 abcderf 
Oxff ,0,1,0,2,0,1,0,3,0,1,0,2,0,1,0 


disable lower priority 
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CHE rli, # Oxff 1 如 果 未 知 

ВЕС unknown condition TLii 

LDR ri2,[ri4, # iRQEnable] :装载 TRO 允许 寄存 器 
ADR rlü,priority mask ;装载 优先 级 地 址 349 
LDR г10,[т10, г11, L&L #2] jmen32[ri0 + 111 << 2] 
AND r12,v12, r10 ;AND ft iS (E ЖЕ 

STR r12,[r14, # IROEnableClear] + 清除 新 中 断 

MRS rl4,cpsr 3 复制 cpsr 

BIC rl4,r14,# I Bit SÉSE Iu 

MSR cpsr_c,rl4 ; 免 许 IFO 中 断 

LDR pc, | pc, rll,LSL #2] BET 8I— 58 

NOP 

DCD service timeri + 定时 器 1 ISR 

DCD Service commtx ;通信 发 送 158 

DCD service commrx 通信 接收 ISR 

DCD service timer2 ;证 时 器 2 ISR 


priority mask 
DCD 


MASK TIMERI 


,mask GROUP 0 
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DCD MASK COMMTX mask GROUP 1 
DCD MASK COMMRX ;mask GROUP 1 
DCD MASK_TIMER2 mask GROUP 0 


通过 使 用 二 进 制 “或 ?操作 ,GROUP_z 定义 为 各 中 新 源 赋 予 了 它们 特定 的 优先 级 。 
GMASK x 定义 为 分 组 的 中 断 指定 了 屏蔽 码 。MASK_z 定义 使 每 一 个 GMASK_ <+ 对 应 于 
一 个 特定 的 中 断 源 ,后面 它们 将 被 用 在 优先 级 屏蔽 码 表 中 。 

保护 好 上 下 文 后 ,处 理 程 序 就 读 取 IRQ 状态 寄存 器 ,其 地 址 是 中 断 控制 器 的 基地 址 加 
上 一 个 偏 移 量 。 

然后 ,处 理 程序 使 用 人 逻辑 “与 ”来 确认 中 汤 源 属于 娜 一 组 。 指 令 的 后 鳅 字母 $ 表明 要 更 
新 cpsr 中 的 条 件 标志 位 。 

寄存 器 rl11 现在 保存 的 是 优先 级 最 高 的 分 组 0 或 1， 处理 程序 把 fll 和 0xf ETEA 
“与 "来 屏蔽 其 它 中 新 。 

接着 ,最 低 有 效 位 表 的 地 址 被 装载 到 寄存 器 r11。 使 用 寄存 器 rl0 的 值 (0,1,2 或 3) 从 
表格 起 始 装载 1 字 节 ( 见 表 9. 12)。 一 旦 最 低 有 效 位 的 位 置 装载 到 寄存 器 rl1, 处 理 程序 就 
跳 转 到 一 个 例 程 


# 9.12 , 量 低 有 效 位 家 





disable lower, priority 中 断 例 程 首先 检查 是 否 有 无 效 的 (spurious) (或 不 再 存在 的 ) 中 
断 。 如 果 这 个 中 断 已 经 失效 , 则 调用 unknown_condition 例 程 。 处 理 程序 装载 IRQEnable 
寄存 央 , 并 把 结果 放 在 寄存 器 (12 E, 

以 装载 优先 级 屏蔽 码 表 的 地 址 得 到 优先 级 屏蔽 码 ,然后 左 移 2 位 寄存 器 r11 里 的 数据 ， 
结果 0,4,8 或 12 加 到 优先 级 屏 藏 码 的 地 址 。 寄 存 器 r10 яткан аы 
发 生 的 屏 项 码 。 


下 一 步 是 清除 低 优先 级 的 中 断 , 使 用 这 个 屏蔽 码 与 寄存 器 r12CIRQEnable 寄存 器 ) 相 
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* E , 清 符 对 应 的 位 ;然后 把 结果 保存 到 IRQEnableClear 12. MEWE cpsr 里 的 i 位 
来 允许 IRQ 异常 就 安全 了 。 

最 后 ,处 理 程 序 通 过 修改 寄存 器 r11( 它 仍然 保存 有 最 高 优先 级 中 断 ) 和 pe 跳 转 到 正确 
的 中 断 服务 例 程 。 寄 存 器 r11 左 移 2 位 ,并 把 结果 加 到 pe, ISR 的 地 址 就 确定 了 。 这 一 地 址 
直接 装载 到 ре, 

ЖЖ: ЖЖЖ LDR 指令 后 。 因 为 ARM 的 流 术 线 机 制 需要 播 入 一 个 МОР, 
A # IEEE BIN ALIE 

e 这 是 一 种 处 理 不 局 优先 级 组 别 中 断 的 方法 ; 

e 低 的 中 断 延 迟 ; 

@ 优点 : 当 系 统 要 处 理 大 量 中 断 时 很 有 用 ,同样 缩短 了 响应 时 间 , 因 为 确定 优先 级 的 时 


闻 较 短 ; 
e 缺点 ; 须 决定 中 断 如 何 分 组 。 


9.3.8 ÆF VIC PL190 的 中 断 服 务 例 程 


为 了 利用 向量 中 断 控制 器 的 优点 ,IRQ 中 断 向 量 人 口 作 了 修改 。 


0х00000018 — LPH рс.[рс, # -Ozff0O] ;IRQ рс = mea32[ Ox£££££030] 


该 指令 从 内 存 映射 地 址 0xfffff030 中 获得 数据 装载 到 pc, 这 就 跳 过 了 任何 软件 中 断 处 
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理 , 因 为 可 以 直接 从 硬件 获得 中 断 源 。 由 于 只 使 用 了 一 句 简单 的 跳 转 指 令 ,这 样 做 也 减少 了 351 
ТНА. 

以 下 是 一 个 VIC 服务 程序 的 例子 ， 

INTON EQU 0х0000 :允许 中 断 

SYS32md EQU Oxlf :系统 模式 

IRQ32md ЕШ 0х12 IRRA 

I Bit EU — OxBO 

VICBasehddr EQU Oxfffffü00 ;VIC 3 dal 38 3€ 38 hk 


VICVectoràddr ЕШ VICBaseAddr + 0x30 ; фт) ISR 地 址 


vector service routine 


SUB rid rid, #4 }г14 -= 4 
STMFD r13!,[r0 - r3,r12,r14) ;保护 上 下 文 
MRS rl2,spsr Ж | sper 
STMFD rl31, 1r12} ;保存 spsr 


= РИЙ > 
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MSR cpsr c, # INTON| SY932md ;Ccpsr C= ift sys 


;二 中断 服务 代码 > 
HSR epsr с, І Bitj|IRQ32md :cpsr c= Ift irq 
LDMFD r131, {ri12} ‚ЖМ (spsr irg) 
MSR Spar, cXsf,r12 ;恢复 spsr 

LDR rl, = VICVectorhddr LR o] d dh 
STR z0.[r1] ;服务 完成 

LDMFD r13!,(r0 - r3,r12, pe} + 返回 





该 例 程 在 清除 中 断 源 之 前 保存 了 上 下 文 及 spsr_irq。 一 旦 完成 该 操作 ,就 可 以 通过 清 
”了 除 i 位 ,使 IRQ 异 常 重新 使 能 ,并 将 处 理 器 模式 设 为 系统 模式 于 是 服务 程序 在 系 统 模 式 
下 处 理 中 断 。 一 旦 完成 处 理 , 设 置 ; 位 禁止 IRQ 异常 ,并 将 处 理 器 的 模式 切换 回 IRQ 模式 ， 
spsr_irq 也 从 IRO ЖЕР HOM ,为 返回 做 准备 。 
然后 ,中 断 服 务 程序 要 对 控制 器 中 的 VICVectorAddr 寄存 器 进行 号 、 写 这 个 寄存 器 的 
目的 是 ,向 优先 级 处 理 硬 件 表 明 ,该 中 断 已 经 被 服务 过 。 
EX: VIC 基本 上 汪 一 种 项 件 中 断 控制 器 ,因此 必须 在 VIC 被 激活 之 前 ,编程 和 设置 好 中 断 服 务 程 序 
的 地 址 列表 。 


9.4 总 结 





异常 会 改变 指令 执行 的 正常 顺序 。ARM # ? 种 异常 ,数据 中 赴 , 快 速 中 断 请 求 , 中 断 
请 求 . 预 取 指 中 止 . 软 件 中 止 、 复 位 和 未 定义 指令 中 止 。 每 一 种 异常 与 ARM 处 理 器 的 一 种 
模式 相对 应 。 一 旦 异常 发 生 , 处 理 器 便 进入 一 种 特定 的 模式 ,并 跳 转 到 向 量 表 中 的 某 个 人 
门 。 每 种 异常 也 有 一 个 忧 先 级 ， 

中 断 是 由 АКМ 外 设 引 起 的 一 种 特殊 的 绰 常 。IRQ 异常 用 于 通常 的 操作 系统 事务 处 
理 。FIQ 异常 一 般 是 为 单独 的 中 断 源 保留 的 。 岂 新竹 加 是 指 从 外 部 中 断 请 求 信 叶 出现， 到 
特定 的 中 断 服务 程序 (ISR) 的 第 一 条 指令 第 取 指 之 间 的 时 间 间 陋 。 

本 章 讨论 了 8 ЖЕРИК ГЕ, ARKEA AA th Bi ETE ЖАПЕ ДЕЛЕ Р ЖЕК ЛЕ, Bl 
TE P BE A LS 8C 6 ВИРУ ЕИ Н ЖШ, ЖЯ ECT IL BE ERE d E 
(VIO 的 中 断 服务 例 程 ， 





e 四 什 和 引导 装载 程序 
© # 5 Sandstone 
e & g 





ARM 嵌入 式 系统 开发 


本 章 讨论 基于 ARM 的 散人 式 系统 的 固件 (Fireware)。 对 于 任何 炭 人 式 系统 ,固件 都 
是 一 个 重要 的 部 分 ,因为 在 一 个 新 的 平台 上 ,固件 通常 是 被 移植 并 执行 的 第 一 段 代码 。 对 不 
局 的 系统 ,固件 有 很 大 的 差异 ,可 以 是 -- 个 完整 的 上 腐 人 式 软 件 系统 ,也 可 以 只 是 一 段 简单 的 
初始 化 和 引导 装载 (baotloader) 程 序 .。 本 章 将 分 为 2 Tr: 

10.1 节 介 绍 固 件 。 这 一 节 将 给 固件 下 一 个 定 交 ,并 介绍 2 个 可 以 在 АКМ EXE Е 
用 的 流行 的 工业 标准 固件 包 一 一 ARM Fireware Suite 和 Red Had 公司 的 RedBoot。 这 2 
个 固件 包 是 通用 的 ,可 以 较 容易 和 快速 地 移植 到 不 同 的 ARM 平台 上 | 
10.2 节 重 点 讨论 初始 化 和 引导 装载 过 程 。 为 了 讨论 方便 ,本 节 介绍 了 一 个 简单 的 例子 
Sandstone, Sandstone 首先 初始 化 硬件 ,然后 装载 一 个 映像 文件 (Image) 到 存储 器 ,最 
后 将 pe 指针 的 控制 权 交 给 该 映像 文件 。 

接 下 来 讨论 固件 并 介绍 2 个 通用 的 ARM ШЫ. 


10.1 固件 和 引导 装载 程序 
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有 些 术 语 ,不 同 的 人 往往 会 有 不 同 的 认识 ,本 章 使 用 如 下 定义 。 


e 历任 ”是 底层 的 氢 人 式 软 件 , 它 提供 硬件 和 应 用 程序 /操作 系统 层 软件 之 间 的 接口 。 
固件 存储 在 ROM 里 , 托 人 式 硬件 系统 一 上 电 就 立即 执行 。 在 完成 系统 初始 化 以 
后 , 回 件 可 以 继续 保持 活动 状态 ,以 提供 某 些 基本 的 系统 操作 。 对 于 一 个 基于 ARM 
的 系统 ,选择 什么 固件 取决 于 特定 的 应 用 ,可 以 是 装载 并 执行 一 个 复杂 的 操作 系统 ， 
也 可 以 只 是 简单 地 将 控制 权 交 给 一 个 小 的 微 内 核 。 因 此 ,固件 实现 的 需求 会 有 很 大 
的 不 同 。 例 如 一 个 小 的 系统 可 能 只 需要 一 个 最 小 的 固件 支持 ,用 来 引导 一 个 小 的 操 
作 系统 。 国 件 的 一 个 主要 目的 是 , 提供 一 种 可 靠 的 机 制 来 装载 和 引导 一 个 操作 
系统 。 

9 2 SE ELEUF(Bootloade) 是 一 个 用 来 引导 操作 系统 或 应 用 程序 到 硬件 目标 平台 
上 的 小 应 用 程序 , 它 在 操作 系统 或 应 用 程序 执行 以 后 便 立即 退出 。 引 导 装载 程序 通 
常 包含 在 固件 里 。 


为 了 有 助 于 理解 不 同 固件 的 实现 要 素 ,这 里 列 出 一 个 通常 的 固件 执行 流程 ( 见 
表 10. 1) 。 下 面 将 详细 讨论 每 一 个 执行 阶段 。 

第 1 阶段 是 设置 目标 平台 一 一 准备 一 个 操作 系统 引导 时 所 需 的 环境 ,因为 操作 系统 在 
运行 前 都 需要 一 个 特定 的 环境 。 这 一 阶段 包括 正确 地 初始 化 平台 (例如 ,要 保证 某 个 特定 微 
控制 器 的 控制 寄存 器 已 经 被 同 予 恰当 的 地 址 ;或 者 道 过 改变 存 情 器 掀 射 ,得 到 一 个 期 望 的 存 
Мн. 
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X 10.0 固件 执行 流程 





HEHE + d 
设 普 日 标 平台 编程 硬件 系统 省 让 器 
平台 识别 
诊断 
调试 接口 
from REN 
抽象 硬件 ` TARS 
设备 驱动 
装载 可 引导 的 映像 文件 基本 的 文件 系统 
交 出 控制 权 改变 pe 指针 ,使 它 指向 新 的 映像 文人 


同一 段 可 执行 代码 经 常 需要 在 不 疗 的 内 核 和 平台 上 运行 ,在 这 种 情况 下 ,固件 必须 能 够 
识 剂 它 正 运行 在 群 种 肉 核 和 平台 上 。 内 核 的 识别 通常 只 须 读 取 读 处 理 器 cp15 的 寄存 器 r0, 
其 中 保存 有 处 理 器 的 型 号 和 生产 商 的 名 字 。 有 多 种 方法 可 以 用 来 识别 平台 ,例如 检查 一 组 
特定 的 外 设 是 否 存在 ,或 简单 地 读 取 一 个 可 预 编程 的 芯片 内 容 。 

诊断 软件 提供 一 种 有 效 的 方法 来 快速 检测 出 一 些 基本 的 硬件 故障 。 由 于 它 是 用 来 检测 
硬件 的 ,因此 诊断 软件 都 与 特定 的 硬件 有 关 。 

调试 功能 是 以 模块 (module}) 或 监视 器 (monitor) 的 形式 提供 的 , 它 为 调试 运行 在 硬件 目 
标 平台 上 的 代码 提供 软件 支持 ,这 些 支持 包括 ; 


e ЇЕ RAM 中 建立 断 点 , 断 点 允许 中 断 程序 和 查看 处 理 器 内 核 的 状态 ; 
e 列 出 .修改 存储 器 的 值 ( 使 用 peek 和 poke 操作 ); 

@ 显示 当前 处 理 器 寄存 器 的 内 容 ; 

e 将 存储 器 内 容 反 汇编 成 ARM 和 Thumb 指令 ，。 


交互 功能 ;可 以 通过 命令 行 解释 器 CLICCommand Line Interpreter) 或 者 与 目 标 平台 相 
连 的 专用 主机 调试 器 来 发 送 命令 。 除 非 固件 可 以 访问 内 部 硬件 调试 电路 ,否则 只 有 在 
RAM 中 的 上 映像 文件 可 以 通过 软件 调 斌 机制 来 进行 汕 试 ， 

命令 行 解释 器 CLI 通常 在 较 高 级 的 固件 实现 中 才 有 。 可 以 通过 在 命令 行 提示 符 后 面 
键 人 命令 来 更 改 默 认 配 置 , 从 而 改变 将 要 引导 的 操作 系统 ， ЗЛЖ, СТЕ Е 
通过 一 个 主机 终端 应 用 程序 来 控制 。 主 机 和 目标 平台 之 间 的 通信 一 般 通过 串 日 或 网 络 
接口 

第 2 阶段 是 抽象 硬件 。 和 硬件 抽 象 层 HAL(Hardware Abstraction Layer) 是 一 个 软件 
层 , 它 向 上 通过 提供 一 组 已 定义 的 编程 接口 来 隐藏 下 层 的 硬件 。 当 移 植 到 一 个 新 的 目标 平 
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АВМ ЛУЖИН — 
人 台 时 ,这 些 编程 接口 保持 不 变 , 但 下 层 的 实现 却 改 变 了 。 例 如 ,2 个 目标 平台 可 能 使 用 不 同 








ARM 处 理 器 通常 都 在 一 个 包 售 Flash ROM 的 小 设备 上 ,一 般 都 带 有 一 个 简单 的 
Flash ROM 文件 系统 (FFS) ,多 许 存储 多 个 可 执行 的 映像 文件 ， 

其 它 的 存储 媒介 ,比如 硬盘 ,需要 固件 中 包含 能 够 访问 该 存储 媒介 的 设备 驱动 。 访 问 该 
硬件 时 ,固件 需要 知道 底层 文件 系统 的 格式 ,这 样 固件 才能 访问 文件 系统 ,找到 包含 映像 的 
文件 ,然后 将 其 复制 到 内 存 。 类 似 的 ,如 果 映 像 文件 是 在 网 络 上 的 ,固件 就 需要 知道 网 络 协 
议和 以 太 网 硬件 。 

装载 过 程 中 必须 考虑 呐 像 文件 的 格式 。 最 基 机 的 映像 文件 格式 是 普通 的 二 进 制 格式 ， 
这 种 格式 的 映像 文件 不 包含 任何 头 部 或 调试 信息 。 在 基于 ARM 的 系统 中 ,一 种 常用 的 映 
像 文件 格式 是 可 执行 和 连接 格式 ELFCExecutable and Linking Format)。 这 种 格式 最 初 是 
A UNIX 系统 开发 的 ,用 来 代替 早期 的 普通 对 象 文 件 格式 COFF(Common Object File For- 
mat), ELF 文件 有 3 种 形式 ; 可 恒定 位 (relocatabe) ,可 执行 (executable) 和 共享 对 象 
(shared object? 。 | 

大 多 数 固件 系统 都 必须 处 理 可 执行 的 格式 。 装 载 一 个 ELF 陕 像 文件 包括 要 解释 标准 
的 ELF 头 部 信息 (执行 地 址 、 类 型 .文件 大 小 等 )。 映 像 文件 也 可 能 经 过 加 密 或 压缩 ,这 样 的 
їй ,装载 过 程 还 包括 执行 解密 或 解压 工作 。 

第 4 阶段 是 转交 控制 权 。 这 个 阶段 , 国 件 将 平台 的 控制 权 交 给 操作 系统 或 应 用 程序 。 


注意 ; 并 不 是 所 有 的 国 件 在 这 个 阶段 都 交 出 控制 权 , 国 件 也 可 以 在 平 癌 上 如 留 控制 软件 ， 


如 果 固 件 将 控制 权 交 给 操作 系统 , 则 在 操作 系统 取得 控制 权 后 ， 固件 一 般 就 处 于 非 活 动 
状态 。 固件 的 机 器 无 关 层 MIL{Machine Independent Layer) 3 35 88 (fh E: HAL Hard- 
ware Abstraction Layet) 部 分 固件 也 可 以 继续 保持 活动 状态 ,这 一 层 通过 SWI( rp B 9t 
制 为 特定 的 硬件 设备 提供 一 个 标准 的 应 用 程序 接口 。 

# ARM 系统 中 , 交 出 控制 权 就 是 更 新 间 量 表 和 修改 pc 指针 。 更 新 向 量 表 包 括 修 改 特 
定 的 异常 和 中 断 向 量 ,使 其 指向 操作 系统 中 用 来 处 理 该 异常 或 中 断 的 处 理 程序 。pc 指针 必 
须 被 修改 ,使 其 指向 操作 系统 的 入 口 地 址 。 


T> 

Z| 。 的 时 名 外 设 ,每 个 外 设 的 初始 化 和 配置 都 需 要 新 的 代码 ,即使 硬件 和 软件 在 实现 上 有 很 大 不 
$ | 同 ,HAL 编程 接口 都 将 保持 不 变 。 

e HAL 中 与 特定 硬件 外 设 通 信 的 软件 称 为 设备 驱动 (device driver), В «RR E t 
J| -个 标准 的 应 用 程序 编程 接口 (APD) 玉 对 特定 外 设 进行 读 / 写 ， 

和 第 3 阶段 县 装载 一 个 可 引导 的 映像 文件 ， 是 否 要 实现 这 个 功能 ,取决 于 用 来 存储 映像 
B ten. 

9 ЖЖ: Жж Ж ЖЕ Ж АНЫ Я ДАЕ А НД 到 RAM Ф, И 
ut 单 地 直接 在 ROM 中 执行 ， 

Q 
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在 一 些 比较 成 熟 的 操作 系统 中 ,比如 Linux, 转 交 控 制 权 需要 传递 给 操作 系统 内 核 
(kernel 一 个 标准 的 数据 结构 ,这 个 数据 纤 构 说 明了 操作 系统 内 核 将 运行 的 环境 。 例 如 , 数 
据 结 构 中 可 能 有 一 个 域 包含 目标 平台 的 可 用 RAM 的 大 小 , 另 一 个 域 旭 可 能 包含 所 用 
MMU 的 类 型 。 

接 下 来 应 用 以 上 的 定义 来 描述 2 个 通用 的 固件 套件 (firmware suite), 


10.1.1 ARM Firmware Suite 


ARM Firmware Suite AFS) š ARM 公司 专门 为 基于 ARM 的 三 人 式 系统 开发 的 固件 
包 , 它 支持 包括 Intel 公司 的 XScale 和 StrongARM 处 理 咕 在 内 的 很 多 ARM 处 理 器 和 平 
f. 该 固件 包 主 要 包括 2 项 技术 :硬件 抽象 层 xHAL( 发 音 为 “micro-HAL”) 和 调试 监控 
Angel, 
РНА 提供 了 一 个 可 以 在 不 同 通信 设备 (例如 USB. UKA d ESO F Ek {ЕНШЕ 
备 驱动 框架 ,同时 它 也 提供 标准 的 应 用 程序 编程 接口 (AP1) 。 这 样 ,在 移植 代码 时 ,只 要 实 
现 与 AHAL 的 API 哨 数 相对 应 的 ,与 具体 硬件 相关 的 部 分 即 可 ， 
使 用 标准 的 函数 编程 接口 ,可 以 使 移植 过 程 变 得 相对 容易 。 一 旦 在 新 的 目标 平台 移植 
好 了 固件 ,接着 就 是 移植 一 个 操作 系统 到 这 个 平台 。 移 植 过 程 的 复杂 性 取决 于 该 OS 是 否 
使 用 了 HAL 的 API 调用 来 访问 硬件 ， 
RHAL 主要 支持 如 下 特征 ， 
e 系统 却 玛 伦 一 一 设置 自 标 平台 和 和 处理 器 内 校 ,这 可 以 是 一 个 简单 ,也 可 以 是 一 个 复 
杂 的 任务 ,取决 于 目标 平台 的 复杂 性 ; 
e R15 0058 L1 3025 —— SR BL ER CR 5 EB EE EI IE; 
e LED X f$ — Hh LED, 以 实现 简单 的 用 户 反馈 (feedback) ,使 应 用 程序 可 以 显示 
一 些 损 作 状态 ; 
e iH XA 一 一 产生 周期 性 的 定时 中 断 ,这 是 近 占 式 调度 (preemptive context 
switching) 操 作 系 统 实现 其 调度 机 制 所 必 带 的 ， 
e ОН X OP BB e dS. 


在 AHAL 的 月 动 监 控 中 ,包含 一 个 命令 行 解释 器 CLI, 

Angel 允许 调试 的 主机 和 目标 平台 之 间 的 通信 ,使 程序 员 可 以 查看 和 修改 存储 器 内 容 ， 
下 载 和 执行 映像 文件 ,设置 断 点 ,查看 处 理 器 寄存 器 的 内 容 。 所 有 这 些 控 制 都 通过 主机 调试 
Wa Angel 调试 监控 必须 可 以 访问 SW A IRQ R F 中 断 向 量 。 

Angel 使 用 SWI 指令 来 提供 一 组 API 衣 数 ,允许 一 个 程序 打开 , 读 / 写 主机 的 文件 系 
8. IRQ/FIQ 中 断 用 于 与 主机 的 通信 。 
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10.1.2 Red Hat Redboot 


RedBoot 是 由 Red Hat 会 司 开 发 的 国 件 工具 ,遵循 开放 源码 许可 (open source license? 3€ 
有 版 税 或 前 期 费用 。，RedBoot 可 以 在 不 同 的 CPU( 如 ARM,MIPS,SH 等 ) 上 执行 。 它 提供 了 
GNU 的 GDB 和 bootloader 两 种 调试 方法 。RedBoot 的 软件 核心 基于 一 个 HAL, 

RedBoot 主要 支持 的 特征 如 下 。 


9 语 和 售 ”通过 串口 或 以 太 网 进行 配置 。 对 于 串口 ,使 用 义 - Modem 协议 与 GNU 调试 
器 (GDB) 进 行道 信 ; 对 于 以 太 网 ,使 用 TCP 协议 与 GDB 进行 通信 。RedBoot 支持 
很 多 网 络 标 准 , 如 bootp, telnet 和 tftp. 

e Flash 闻 入 天 管理 ”提供 一 组 文件 系统 函数 ,用 它 可 以 下 载 .升级 或 擦 除 Flash 存储 
医 里 的 上 映像 文件 。 另 外 ,映像 可 以 被 压缩 或 解压 ，。 

e х#}Ю#ЕЖ# FE XP А Linux Red Hat 的 eCos 和 其 它 许多 常见 操作 系 
统 的 装载 和 引导 。 对 于 肉 人 式 Linux, RedBoot 支持 定义 一 些 参 数 ,这 些 参 数 在 引导 
时 直接 传 给 操作 系统 内 核 。 


10,2 例子 :Sandstone 





本 节 设 计 的 Sandstone 是 一 个 最 小 的 系统 ,只 执行 如 下 任务 :设置 目标 平台 环境 ,装载 
3* 10,2 Sandstone 概述 一 个 可 引导 的 映像 到 存储 器 ,将 控制 权 交 给 操作 系统 。 
但 它 是 一 个 真实 运行 的 例子 ， 





性 " 
= = ARM 指令 这 个 实现 针对 АКМ Evaluator - 7T FIAR, EE 
工具 本 ADSI, 2 会 一 个 ARM7TDMI 的 处 理 器 。 这 个 例子 清楚 地 说 
Big oh 700 字 节 明了 如 何 设置 一 个 简单 的 平台 ,以 及 软件 是 如 和 何 被 装 
源 代码 17 KB .、 ” 载 到 存储 器 中 并 被 引导 的 。 被 装 坑 的 软件 既 可 以 是 一 
存 情 器 ЕРНІ 个 应 用 程序 ,也 可 以 是 一 个 操作 系统 映像 、Sandstone 

С яи, ЫЕЕЕ Е, X 10.2 
列 出 了 Sandstone 的 基本 特征 。 


了 下面 绸 来 看 一 下 目录 和 代码 结构 。 目 录 结 构 显 示 了 源 代 码 放 在 哪里 ,以 及 不 同 的 编译 广 
件 放 在 娜 里 。 代 码 结构 着 重 介绍 实际 的 初始 化 和 引导 过 程 。 

请 注意 Sandstone 是 完全 用 ARM 汇编 写 的 , 它 是 可 以 初始 化 目标 硬件 和 引导 任何 软件 
的 一 段 正 常 工作 代码 PUR ERE ARM Evaluator - 7T PRE. 





10.2.1 Sandstone HERAA 


Sandstone 可 以 在 作者 网 页 上 找到 。 其 目 深 结构 如 图 10. 1 所 示 。 这 个 结构 所 遵循 的 标 
准 类 型 在 以 后 的 音节 中 将 恋 续 使 用 。Sandstone 源 文 件 sand. s 位 于 sand/build/src BRP., 
[Sand] 
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makefile readme.txt [build] [payload] 


x . $jos.bin 
[sc] ^ [obj] fimage] Пор] 
sand.s 
В 10.1 Standstone H E i fH 
汇编 器 生成 的 目标 文件 放 在 build/obj 目录 下 。 目 标 文件 被 连接 后 ,最 后 的 Sandstone Wt 
PLPR E sand/build/image 目录 下 ,这 十 炭 像 文件 包括 Sandstone 代码 和 有 有 效 载 荷 (pay- 
ioad)2 部 分 。 将 被 Sandstone 装载 并 引导 的 映像 文件 (有 效 载 葆 ) 放 在 sand/payload 目录 下 。 


关于 Sandstone 的 build МЕЕ Т TSA sand 目录 下 的 readme. txt 文件 ，re- 
adme. txt 包含 如 何 生 成 一 个 在 ARM Evaluator - ?T. ERTA AHRR FANA. 


10.2.2 Sandstone 的 代码 结构 


Sandstone 只 包含 一 个 汇编 文件 。 文件 结构 被 分 成 几 步 ,每 一 步 对 应 Sandstone 的 执行 流 
B—^TB ECOL 10, 3). 3 10.3 Sandstone 执行 流程 
下 面 将 详细 介绍 这 些 步骤 。 这 里 尽量 


目标 平台 环境 ,这 样 它 就 可 提供 某 些 形式 
的 反馈 (如 LED)} 来 指示 固件 正在 执行 和 
控制 着 平台 。 


六 免 与 平台 相关 的 部 分 ,但 是 有 站 与 硬件 。。 一 一 
相关 的 部 分 是 不 可 如 锡 的 (如 配置 系统 的 — 00 SAKARA 
ЭТЕРИНЕ mit. ме 
Sandstone 初始 化 工作 的 目标 是 设置 | 
4 ”初始 化 通信 硬件 
5 
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指令 执行 从 复位 异常 开始 。 默 认 的 向 量 表 中 只 要 有 一 个 复位 向 量 人 口 , 它 就 是 真正 被 执 
行 的 第 一 条 指令 。 除 了 复位 向 量 外 的 其 它 向 量 都 跳 转 到 一 个 哑 处 理 过 程 一 一 一 条 分 支 指令 跳 
转 到 一 个 无 限 循环 。 这 里 假设 在 Sandstone 的 执行 过 程 中 没有 异常 或 中 断 发 生 。 复 位 向 量 使 
执行 流程 进入 第 2 步 。 

AREA start,CODE, READONLY 
ENTRY 


sandstone start 


epino sjedoje^eq uJeisAS WAY 


B sandstone initl ;复位 向 量 
B ех und ;未 定义 向 量 
B ex swi ;Swi 向 量 
B ех pabt ; 预 取 指 中 止 向 量 
B ех дарё ;数据 中 止 向 量 
NOP ;未 用 
B int irq :ІВО 向 量 
B int fiq ;FIQ 向 量 
ex_und B X ex und ; 死 循环 
ex swi B  exswi ; 死 循环 
360 ex_dabt B exdabt ; 死 循环 
ex_pabt B ex pabt. ; 死 循环 
int irq B int і ; 死 循环 
int fiq B int fiq ; 死 循环 
Sandstone_start 被 放 在 0x00000000。 
第 1 步 的 执行 结果 ， 
e 三 处 理 过 程 被 设置 ; 
e 控制 权 被 转交 给 初始 化 硬件 的 代码 。 
10.2.2.2 第 2 步 :开始 初始 化 硬件 


初始 化 硬件 的 主要 工作 是 设置 系统 寄存 器 。 访 问 硬件 设备 之 前 ,必须 先 初始 化 这 些 寄 存 
器 。 例 如 ,ARM Evaluator - ТТ 评估 板 有 一 个 7 段 数码 管 显示 器 ,可 以 把 它 作 为 反馈 工具 ,用 
来 指示 固件 正 被 执行 。 在 显示 段 码 之 前 ,必须 将 系统 寄存 器 的 基地 址 放 在 一 个 已 知 的 位 置 。 
这 里 选取 默认 地 址 0x03110000 ,这 样 可 以 使 所 有 的 硬件 系统 寄存 器 远离 ROM 和 RAM, 区 分 
了 外 设 和 存储 器 地 址 空间 。 








这 样 ,所 有 微 控制 器 的 存储 器 映射 寄存 器 将 被 放 在 从 地 址 0x03ff0000 开始 的 特定 偏 移 
处 。 该 操作 可 用 下 面 的 代码 来 实现 ; 


sandstone initl 


LDR гЗ, = SYSCFG ;这 里 SYSCFG = 0x03ff0000 
LDR r4, = 0x03ffffa0 
STR r4,[r3] 


寄存 器 r3 包含 默认 的 系统 寄存 器 基地 址 ,并 可 被 用 来 设置 新 的 默认 地 址 ,也 可 用 来 设置 
其 它 类 似 于 cache 的 特定 属性 。 寄 存 器 4 包含 新 的 配置 值 ,其 高 16 位 包含 新 的 系统 寄存 器 
基地 址 的 高 地 址 0x03ff, 低 16 位 包含 新 的 属性 配置 值 0xffa0。 

设置 完 系统 寄存 器 的 基地 址 后 ,就 可 以 开始 配置 数码 管 显 示 了 。 用 数码 管 来 指示 Sand- 
stone 的 执行 过 程 。 这 里 没有 描述 数码 管 显示 的 代码 ,因为 它 是 与 具体 硬件 相关 的 。 

第 2 步 的 执行 结果 ， 


e 系统 寄存 器 被 设置 在 一 个 已 知 的 基地 址 一 一 0x03ff0000; 
e 数码 管 显 示 器 被 配置 ,这 样 就 可 以 用 它 来 显示 执行 过 程 。 


硬件 初始 化 的 一 个 主要 任务 是 设置 存储 器 环境 。Sandstone 初始 化 SRAM ,然后 进行 存 
储 器 重 映射 。 这 个 过 程 应 在 系统 初始 化 时 尽早 完成 。 在 一 个 已 知 的 存储 器 状态 下 ,平台 开始 
和 运行。 如 表 10.4 所 列 。 


表 10.4 初始 存储 器 状态 


存储 器 类 型 起 始 地 址 结束 地 址 大 小 /KB 
Flash ROM 0x00000000 0x00080000 512 
SRAM bank 0 不 可 用 不 可 用 256 
SRAM bank 1 不 可 用 不 可 用 256 


一 -~ Ir GS 


可 以 看 到 ,硬件 平台 上 电 时 ,只 有 Flash ROM 被 分 配 在 存储 器 映射 的 一 个 位 置 ,2 个 
SRAM 段 (bank 0 和 bank1) 没 有 初始 化 ,所 以 还 不 能 使 用 。 下 一 步 就 是 使 2 个 SRAM 段 可 
用 ,并 将 Flash ROM 重 映射 到 一 个 新 的 地 址 。 实 现代 码 如 下 ， 


LDR rl4, = sandstone init2 
LDR r4, = 0x01800000 ;新 的 Flash ROM 位 置 
ADD г14,г14,г4 


ADRL rO, memorymaptable str 
LDMIA r0, (r1-r12) 
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LDR r0, = EXTDBWTH ; = (SYSCFG + 0x3010) 





STMA r0, {г1-г12) 
MOV рс, г14 ; 跳 转 到 重 映射 后 的 存储 空间 


sandstone_init2 


;Sandstone_init2 之 后 的 代码 执行 在 @ + 0x01800000 


在 重 映射 之 前 ,代码 的 第 1 部 分 是 计算 sandstone_init2 的 绝对 地 址 。Sandstone 用 该 地 
址 跳 转 到 重 映 射 以 后 新 环境 的 下 一 个 例 程 。 
代码 的 第 2 部 分 执行 存储 器 重 映射 。 新 的 存储 器 映射 数据 从 一 个 memorymaptable_str 
指向 的 结构 被 装载 到 寄存 器 r1~r12。 然 后 ,使 用 这 些 寄存 器 ,该 结构 被 写 到 从 系统 配置 寄存 
器 偏 移 0x3010 的 存储 器 控制 器 。 这 一 步 执行 完成 后 ,新 的 存储 器 映射 就 建立 了 ( 见 表 10. 5). 
X105 重 映 射 以 后 


类 型 起 始 地 址 结束 地 址 大 小 /KB 
Flash ROM 0x01800000 0x01880000 512 
SRAM bank 0 0x00000000 0x00040000 256 
SRAM bank 1 0x00040000 0x00080000 256 





可 以 看 到 ,SRAM 现在 可 使 用 了 ,Flash ROM 被 放置 在 一 个 更 高 的 地 址 上 。 最 后 的 部 分 
是 跳 转 到 固件 的 下 一 个 例 程 或 阶段 。 

这 个 跳 转 是 利用 ARM 流水 线 来 实现 的 。 尽 管 新 的 存储 器 环境 激活 了 ,但 下 一 条 指令 已 
经 装载 到 流水 线 里 了 。 下 一 个 例 程 可 以 通过 将 寄存 器 r14 的 值 复制 到 pc 而 被 调用 。 这 里 在 
重 映射 代码 的 后 面 紧 跟 一 条 简单 的 МОУ 指令 来 实现 这 一 功能 。 

第 3 步 的 执行 结果 ， 


e 存储 器 被 重 映射 ,如 表 10.5 所 列 ; 
€ pc 指向 下 一 步 ,这 个 地 址 在 重 映射 后 的 Flash ROM р], 


通信 初始 化 包括 配置 串口 和 输出 一 个 标准 的 提示 符 。 显 示 出 提示 符 , 表 示 固 件 已 经 全 部 
正常 工作 且 存储 器 已 成 功 重 映射 。 同 样 ,由 于 在 ARM 评估 板 Evaluator - 7T 上 初始 化 串口 
的 代码 是 与 硬件 相关 的 ,这 里 就 不 列 出 了 。 

串口 被 设置 成 600 波 特 ,无 校 验 ,1 位 停止 位 ,无 数据 流 控制 。 如 果品 口 电缆 接 到 评估 板 
上 , 则 主机 终端 就 必须 用 上 面相 同 的 配置 。 

第 4 步 的 执行 结果 ， 








10 Bg # 






e 串口 被 初始 化 一 一 9 600 波 特 , 无 奇偶 校 验 ,1 位 停止 位 ,无 数据 流 控制 。 © 
e 串口 输出 Sandstone 的 提示 符 : "i 
Standstone Firmware (0.01) 3 
= platform ......... elt Q 
- BCU i en alive Ф 
= OEY yd or remapped 


+ booting payload... 


最 后 一 步 包 括 复制 一 个 有 效 载 荷 ( 映 像 文 件 ) ,并 将 pc 的 控制 权 转 交 给 该 程序 。 这 项 工作 
通过 下 面 的 代码 来 实现 。 代 码 的 第 一 部 分 初始 化 作为 块 复制 工作 寄存 器 的 rl2,rl3 和 rl4。 
引导 装载 代码 假设 该 有 效 载荷 是 一 个 纯 二 进 制 的 映像 文件 ,无 须 解密 或 解压 。 


sandstone load and boot 


MOV r13, #0 ;目标 地 址 
LDR rl2,payload start address ;起 始 地 址 
LDR rl4,payload_end_address ;结束 地 址 
-Copy 
LDMIA r12!,(r0- r11} 
STMIA r13!,(r0- r11} 
CMP r12,r14 363 
BLE copy 
MOV рс, #0 


payload start address 


DCD startAddress 
payload end address 
DCD endAddress 


目标 地 址 寄存 器 r13 指向 SRAM 的 起 始 地 址 ,在 这 里 为 0x00000000。 源 地 址 寄存 器 r12 
指向 映像 文件 的 起 始 地 址 , 源 地 址 寄存 器 r14 指向 映像 文件 的 结束 地 址 。 使 用 这 些 地址 ,映像 
文件 被 复制 到 SRAM, 

通过 强制 把 pc 指向 被 复制 的 有 效 载荷 的 入口 地 址 ,就 把 pc 的 控制 权 转 交 给 了 该 程序 。 
对 于 这 个 例子 , 它 的 入口 地 址 为 0x00000000。 这 样 , 被 装载 的 程序 就 控制 了 系统 。 

第 5 步 的 执行 结果 ， 


e 有 效 载荷 被 复制 到 SRAM ,地 址 为 0x00000000 
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€ pc 指针 的 控制 权 转 交 给 了 被 装载 程序 ,pe 二 0x00000000。 
系统 完全 被 引导 。 下面 的 信息 从 串口 输出 : 


Standstone Firmware (0.01) 





- platform ......... et 


= status ........... alive 


+ booting payload ... 


Simple Little OS (0.09) 


apns suedojo^eq ulelsÁS WAY 


- initialized ...... ok 
- rumningon....... elt 
et. 

10.3 总 结 





本 章 首 先 讨论 了 基于 ARM 的 固件 。 固 件 是 提供 硬件 和 应 用 程序 或 操作 系统 接口 的 底 
层 代码 。 引 导 积 序 (bootloader) 装 载 操 作 系统 或 应 用 程序 到 存储 器 ,然后 将 pc 控制 权 交 给 
被 装载 的 软件 。 

其 次 ,介绍 了 ARM Firmware Suite 和 RedBoot, ARM Firmware Suite 是 专门 为 基于 
ARM 的 系统 设计 的 。RedBoot 更 通用 ,可 以 用 在 其 它 的 非 ARM 的 处 理 器 上 ， 

最 后 介绍 了 一 个 固件 例子 Sandstone, Sandstone 初始 化 硬件 ,然后 以 下 列 步骤 闭 款 引 
导 一 个 映像 文件 ; 

D 执行 复位 异常 操作 ; 

D 开始 初始 化 硬件 ,设置 系统 寄存 器 的 基地 址 ,初始 化 数码 显示 答 ; 

ОЛИ ВЯ, КОМ 地 址 = 高 地 址 ,SRAM 地 址 一 0x00000000; 

电 初始 化 通信 硬件 ,使 输出 指向 到 串口 ; 、 

© 引导 装载 一 -装载 一 个 可 执行 的 映像 文件 (有 效 载荷) 到 SRAM, 将 pc 指针 的 控制 
权 给 它 (pe 二 0x00000000)， 


这 样 就 实现 了 ARM7TDMI 媒人 式 系统 的 全 部 初始 化 ， 
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第 11 章 
说 入 式 操作 系统 


e 基本 模块 
e ÈA: 3 232 3441 LOS 
e £ &8 
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ЖЕНЕ АИЙ COS MERE, TA RCBLERUROS ЯН I TD 
计 的 ,因此 它 历来 具有 简单 ЗВ AA E Bg fr RES Bris TAPER. ШЖК АДЕ 
的 不 断 成 就, 这 些 特 点 也 不 断 发 展 . 变 化 ,传统 主 只 能 在 桌面 机 OS 上 找到 的 ~ 一些 特征 ,例如 
虚拟 存储 器 ,现在 也 已 经 移植 进 足 人 式 系统 。 

操作 系统 涉及 的 范围 很 广 , 本 章 只 论述 组 成 能 入 式 操作 系统 的 基本 模块 。 该 操作 系统 
建立 在 第 10 章 介 绍 的 固件 例子 的 基础 上 。 

本 章 分 为 两 节 ;11. 1 节 简 要 介绍 组 成 说 人 式 操 作 系统 的 基本 模块 ,同时 指出 一 些 针 对 
ARM 处 理 器 的 OS 会 涉及 到 的 特定 问题 ;11. 2 节 介 绍 一 个 操作 系统 的 实例 , 称 为 简单 小 型 
操作 系统 SLOS(Simple Little Operating System) SLOS 说 明了 操作 系统 基本 模块 的 一 个 
АЗ. | 


11.1 基本 模块 





一 个 操作 系统 由 一 些 常 见 的 底层 模块 组 成 ,每 个 模块 实现 一 个 预定 的 功能 。 这 些 模块 
的 相互 作用 和 功能 决定 了 这 个 特定 操作 系统 的 特征 。 

ВАЕН Cinitialization) 是 操作 系统 执行 的 第 一 段 代 码 ,包括 建立 内 部 数据 结构 .全 局 
变量 和 到 件 环境 。 在 固件 把 控制 权 交 给 操作 系统 时 ,初始 化 代码 开始 执行 操作 系统 的 宣 
件 初始 化 包括 设置 各 种 控制 寄存 器 ,初始 化 设备 驱动 程序 。 若 操作 系统 为 抢占 式 的 ,还 须 建 
立 一 个 周期 性 的 定时 器 中 断 ， 

ТАРАР (memory handling) 包括 建立 系统 堆 烧 和 任务 堆栈 。 这 些 堆栈 的 位 置 决定 
了 任务 或 系统 可 用 的 存储 空间 大 小 。 系 统 堆栈 的 位 置 通常 在 操作 系统 初始 化 时 设置 ， 任 务 
堆栈 在 何 时 建立 ,取决 于 该 任务 是 静态 的 还 是 动态 的 。 

静态 任务 在 编译 时 被 定义 ,并 包 会 于 操作 系统 贞 像 中 。 这 些 任务 的 堆栈 可 在 操作 系统 
Ufo m. EXIT. RIEN SLOS 就 是 一 个 基于 静态 任务 的 操作 系统 。 

动态 任务 在 装载 并 运行 操作 系统 以 后 被 装载 和 执行 , 它 不 是 操作 系统 映像 的 一 部 分 。 
这 种 任务 的 堆栈 在 创建 任务 时 才 建 立 (例如 Linux 中 就 是 如 此 )。 不 同 操作 系统 的 存储 器 处 
再, 其 复杂 程度 也 不 同 , 取 决 于 很 多 因素 ,比如 所 选择 的 АКМ 处 理 器 核 . 微 控制 器 的 性 能 及 
最 终 昌 标 硬件 的 物理 存储 器 布局 等 。 | 

11.2 节 中 将 介绍 的 示例 操作 系统 SLOS 采用 静态 存储 器 ， 它 简单 配置 微 控 制 器 内 的 
寄存 器 ,并 设置 各 堆栈 的 位 置 。 因为 没有 实现 动态 存储 管理 ,所 以 找 不 到 malloc() 和 freeO 
函数 的 实现 ,这 些 函 数 一 般 可 在 标准 C 库 中 找到 。 

中 肠 知 虹 带 丸 歼 的 方法 是 操作 系统 结构 设计 的 一 部 分 。 设计 时 必须 考虑 如 何 处 理 各 种 
个 加 的 蜡 常 :数据 中 止 ,快速 中 晰 请 求 . 中 断 请 求 MEPE ,复位 和 软 中 汤 (SWTD 等 。 
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并 非 所 有 的 异常 部 需要 异常 处 理 程序 。 比 如 , 若 目 标 板 不 使 用 FIQ 中 断 , 则 无 项 FIQ 
中 断 处 理 程 序 。 通常 比较 安全 的 做 法 是 ,为 未 使 用 的 异常 提供 一 个 死 循环 ,作为 默认 的 鼻 党 
处 理 程序 。 这 种 方法 使 得 调试 更 容易 : 当 系统 不 响应 时 ,说 明 是 在 某 一 异常 处 理 程序 中 死 特 
环 。 同 时 这 种 方法 可 以 使 系统 不 受 意外 异常 的 影响 。 

像 SLOS RHR EARR RA mE ARMER PE. AUF ,这 由 目标 硬件 
ЕАР ВРЕ, RERA A ik BRE Ж НИНИ Т ИИ Ж, 8 38 H T 
ТЖ ЕИ 28 ЕЛЕ ДЕЕ RR EET., 

当 被 敞 活 时 ,计数 器 或 定时 器 就 开始 递减 该 值 , 当 值 递减 到 堆 时 ,就 产生 一 个 中 断 ,相应 
的 ISR 将 处 理 这 个 中 断 。ISR 首先 用 一 个 新 的 起 始 值 重 新 初始 化 该 计数 器 或 定时 器 ,然后 
调用 调度 程序 或 其 它 专用 例 程 。 

相反 , 非 抢 占 式 的 操作 系统 不 需要 周期 性 的 中 断 , 它 使 用 不 同 的 技术 ,例如 轮 询 (poL 
ling) 一 一 不 断 检查 设备 状态 的 变化 ,如 果 状 态 改 变 , 则 执行 相应 的 特定 操作 。 

REEF (scheduler) 是 决定 下 一 个 该 执行 哪个 任务 的 算法 。 有 很 多 可 选 的 调度 算法 ， 
最 简单 的 一 个 称 为 带 环 和 其 fround -robin algorithm) , 它 以 国定 的 次 序 循 环 激活 任务 。 调 
度 算法 的 选择 必须 在 效率 ,代码 大 小 与 复杂 性 之 间 折 囊 。 

执行 完 调度 程序 后 ,新 、 老 任务 用 上 下 区 雪 获 来 实现 交换 。 上 下 文 切换 将 老 任务 的 处 理 
器 寄存 器 数据 保存 到 一 个 数据 结构 中 ,然后 将 新 任务 的 数据 装载 到 处 理 器 寄存 器 中 (此 过 程 
的 细节 请 参见 11.2.6 Ду). 

En МНИ HE JE (device driver framework) 一 一 操作 系统 用 FEA falit 
件 外 设 之 间 提 供 统一 接口 的 机 制 。 这 个 框架 提供 一 种 标准 且 简单 的 方法 ,把 对 特定 外 设 的 
新 支持 集成 到 操作 系统 中 。 庶 用 程序 要 访问 特定 外 设 时 ,必须 有 对 应 的 可 用 驱动 程序 ， 杠 
染 必 须 为 访问 外 设 提供 安全 的 方法 (例如 ,不 允许 多 于 一 个 的 应 用 程序 同时 访问 同一 
个 外 设 )。 | 


11.2 实例 ;简单 小 型 操作 系统 SLOS | 
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我 们 开发 了 一 个 小 操作 系统 , 称 为 简单 小 型 操作 系统 SLOS Simple Little Operating 
System)。 它 说 明了 10. 1 节 讨 论 的 基本 模块 是 如 何 组 成 一 个 完整 的 操作 系统 的 。 这 里 选 
用 ARM 家 族 中 最 简单 的 核 ARM7TDMI, 以 ADSL. 2 为 开发 环境 ,以 ARM 公司 的 Evalua- 
tor -TT IS Bod, BH SLOS 到 其 它 开发 环境 中 也 相对 简单 。 这 里 使 用 第 10 章 介绍 的 
Sandstone 固件 来 装载 和 执行 SLOS, 

SLOS 是 抢占 式 操作 系统 ,周期 性 的 中 断 唤醒 睡眠 态 的 (dormant) 任 务 。 为 了 简单 起 
见 ,所 有 的 任务 和 设备 环 动 程序 都 是 郁 态 的 , 即 它们 都 在 纺 译 时 创建 而 非 系统 运行 时 创建 。 
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同时 SLOS 提供 了 一 个 设备 驱动 程序 框架 ,这 将 在 11. 2. 7 小 节 中 讨论 。 

SLOS 设计 运行 在 无 存储 器 待 理 单元 或 保护 单元 的 ARM7TDMI 核 上 。 假设 已 在 初始 
化 代码 (这 里 指 第 10 章 的 Sandstone) 中 配置 好 了 存储 器 映射 。 要 求 将 SRAM ЖЕ 
0x00000000—-0x00080000 的 地 址 内 ,将 配置 寄存 器 基地 址 放 在 0x03f10000, 

SLOS 被 装载 到 地 址 0x00000000( 向 量 表 就 位 于 这 里 ) ,这 个 地 址 也 是 SLOS 的 入 口 地 
址 。 当 园 件 将 控制 权 交 出 时 ,ARM 处 理 器 工作 在 SVC 模式 。 由 于 SVC 模式 是 特权 模式 ， 
所 以 允许 初 始 化 代码 通过 访问 epsr 改变 工作 模式 ， 可 以 利用 这 一 点 设置 IRQ 模式 和 系统 
RA FRR. | 

在 当前 配置 下 ,SLOS 包含 3 个 任务 和 2 个 服务 例 程 。 任 务 1 和 任务 2 演示 了 使 用 一 
个 二 元 信号 量 实 现 互 斥 的 例子 ;实现 的 2 个 服务 例 程 是 周期 性 定时 故 ( 必 需 的 ) 和 按 馈 式 中 
EOD ;任务 3 通过 ARM РЕЖ Evaluator - ?T 的 串口 提供 一 个 简单 的 命令 行 接口 。 

SLOS 的 每 个 任务 都 需要 自己 的 堆栈 。 所 有 的 任务 都 在 用 户 模式 下 运行 ,因此 任务 只 
能 读 cpsr 而 不 能 写 cpsr。 任 务 切换 到 特权 模式 的 惟一 途径 是 ,使 用 一 个 SWI 指令 调用 ， 
这 个 机 制 也 被 用 来 调用 设备 驱动 程序 ,因为 设备 驱动 程序 也 可 能 需要 写 cpsr。 

在 任务 中 可 以 修改 cpsr, 但 这 种 修改 只 能 通过 使 用 可 更 新 cpst 条 件 标志 的 指令 来 间接 
进行 。 
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11.2.1 SLOS 目录 结构 


368 SLOS 可 以 从 原作 者 的 网 站 下 载 ,在 第 11 童 目录 下 。SLOS 的 目录 结构 与 Sandstone 


固件 的 目录 结构 ( 兄 图 10.1 和 11.1 节 ? 相 似 ， 
[elos] 


makefile гайте ікі [build] 
[wc] [о] [image] 
[apps] [оор — [devices] [ей] — [events] — [headers] 


[devices] [events] — [headers] 


图 11.1 SLOSHRiR t 
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在 包含 操作 系统 所 有 源 文 件 的 目录 slosybuildysrec 下 ,有 8 个子 旧 录 。 目 录 slos/build/ 
src/core 包含 了 各 种 工具 的 源 文 件 , 例 如 命令 行 解释 器 (CELD 的 源 代 码 。 

特定 平台 的 代码 放 在 以 此 平台 命名 的 目录 下 ,例如 ,Evaluator - 7T 的 特定 代码 就 放 在 
Нж ет F. 

目录 slos/build/src/devices 存放 所 有 的 设备 驱动 程序 源 文件 , 自 录 sios/ build/src/ 
events 存 放 处 理 服务 .异常 和 中 断 的 源 文 件 。 

最 后 ,目录 slos/build/src/apps 存放 特定 配置 下 的 应 用 程序 (任务 ) ,例如 ,在 Evaluator 
-TT 前 实现 上 ,有 3 个 应 用 程序 (任务 )， 


11.2.2 初始 化 


初始 化 SLOS 有 3 个 主要 阶段 一 -启动 ,建立 进程 控制 块 PCBCProcess Control Block) 
和 执行 C 初始 化 代码 。 启 动 阶段 设置 FIQ 寄存 器 和 系统 模式 .SVC 模式 ,IRQ 模式 下 的 堆 
栈 。 建 立 进程 控制 块 阶段 建立 包含 每 个 任务 状态 的 PCB, PCE 包括 所 有 的 ARM 寄存 器 ， 
在 上 下 文 切 换 时 ,PCB 用 来 保存 和 人 恢复 任务 状态 ,启动 时 PCB 被 设置 成 一 个 初始 状态 。 最 
后 的 CC 初始 化 阶段 调用 设备 驱动 程序 , 事 忻 处 理 程 序 和 周期 性 定时 器 初始 化 例 程 。 初 始 化 
一 结束 ;就 可 以 调用 第 一 个 任务 了 ， 

控制 权 通 过 复位 向 量 转交 给 SLOS。vectorReset 窑 放 初始 化 代码 的 起 始 地 址 。 假 设 图 
件 将 处 理 器 置 于 SVC 模式 ,这 样 就 允许 操作 系统 的 初始 化 代码 可 完全 访问 cpsr。 第 一 条 操 
作 系 统 措 令 将 初始 化 代码 的 起 始 地 址 (这 里 旭 corelnitialization) 装 载 到 pce。 可 以 从 下 面 列 
出 的 向 看 表 中 看 到 使 用 load 指令 装载 一 个 字 。 汇 编 器 使 用 pe 与 vectorReset 地 址 的 差 来 
HERBE. 


AREA ENTRYSLOS, CODE, READONLY 
ENTRY 
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LDR pe, vectorReset 

LDR po, vectoründef ined 
LDR pc,vectorSKI 

LDR pc,vectorPrefetchAbort 
LDR pc,vectorDataAbort 

LDR pc,vectorheserved 

ШЕ pc,vectorIRQ 

LDR pc,vectorFIO 


vectorReset DCD coreInitialize 
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vectorUndef ined DCD coreUndef inedlandler 
vectorSWI DCD coreSWIBandler 
vectorPrefetchabort DCD corePrefetcbAbortHandler 
vecborlataAbort DCD coreDataAbortHandler 
vectorReserved DCD corenReservedlandler 
vector IRỌ . DCD corelROHandler 
vectorFIQ DCD corekIgHandler 


作为 初始 化 过 程 的 一 部 分 ,这 里 通过 使 用 备份 (banked)FIQ ARFER ЖИТ — 
底层 调试 系统 。 这 些 寄存 器 用 来 保存 状态 信息 。 也 并 不 总 是 使 用 FIQ 寄存 器 , 因为 这 些 寄 
存 器 可 能 已 用 于 其 它 目的 了 。 


opin2 sJodoloAoeq WEAS А] 


bringuplnitFIQRegisters 
MOV r2,rl4 VF x14 
BL switchToFIQMode ;切换 到 FI0 模式 
MOV r8, #0 ;rB Ғіт= 0 
MOY тэ, 0 ;r$ fiq-0 
MOV г10, #0 ;r10_fiq=0 
BL switchToSVCMode 切换 到 SVC 模式 
MOV pr? ;返回 
coreInitialize 
370 BL bringupInitFIQRegisters 


下 一 阶段 基 设 置 SVC.IRQ 和 系统 堆栈 基 址 害 存 器 。 由 于 处 理 器 已 处 于 SVC 模式 ,所 
以 可 直接 设置 SVC 堆栈 基 址 寡 存 器 。 代 码 如 下 


MOV ар, # 0х80000 :5VC stack 

MSR CESR c, # RoInt|SY532md 

MOV Sp, # 0x40000 ;user/system stack 
MSR CPSR c, Ë NoInt | IRQ32nd 

MOV sp, dt 0х9000 ; IRQ stack 

MSR CESR c, # NoInt.| SVC32md 


如 代码 所 列 , 建 立 堆栈 以 后 ,处 理 器 将 切换 回 SVC 模式 ,以 使 初始 化 过 程 继续 下 去 。 在 
特权 模式 下 ,初始 化 的 最 后 阶段 就 可 通过 清除 cpsr 的 了 位 ,并 将 处 理 器 切换 色 用 户 模式 ,以 
允许 IRQ Ф. 
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执行 完 初始 化 启动 代码 后 的 结果 如 下 ; 


e 底层 调试 机 制 被 初始 化 ; 

e SVC.IRQ 和 系统 堆栈 基 址 寄存 器 被 设置 . 

要 开始 运行 SLOS, 还 必须 初始 化 每 个 任务 的 PCB, РСВ 是 一 个 保留 的 数据 结构 ,用 于 
保存 所 有 ARM 寄存 器 的 一 个 副本 ( 见 表 11. 1)。 通 过 将 相应 任务 的 PCD 数据 复制 到 处 理 
器 寄存 器 ,可 激活 某 个 任务。 | 

#11.1 任务 控制 块 [PCB) 


Offset 
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每 个 任务 的 PCB 必须 在 上 下 文 切换 发 生前 被 初始 化 ,因为 土 下 文 切 摘要 将 PCB 数据 371 


复制 到 寄存 器 10115 和 cpsr 中 。 如 果 PCD 未 被 初始 化 , 则 上 下 文 切换 将 会 复制 一 些 不 确 
定 的 数据 到 这 些 寄存 器 。 

PCB 主要 有 4 部 分 党 要 初始 化 :程序 计数 器 ,链接 寄存 器 ,用 户 模式 堆栈 和 为 每 个 任务 
保存 的 处 理 器 状态 寄存 髓 (寄存 器 003,114 015 和 spsr) 。 


ivold pebSetUp(void + entryAddr, void # РСВ, UINT offset); 


pchSetUp 
STR ro, [z1, d - 4] ;BCB[ - 4] = C. TaskEntry 
STR ro,[Lri,# - 64] ;PCB| – 64] = C_TaskEntry 
SUB rÜ,sp,r2 
STR rü,[r1,4 - 8j :РСВ| ~ 8] = ap- «offset 
MOV го, 10x50 :срег c 
STR хб.[г1,# - 68] :РСВ| ~ 68] = iFt User 


MOV pe,1r 








ARM IRA GRUT AR 











2 为 便于 说 明 PCB 的 初始 化 过 程 ,这 里 摘 取 了 初始 化 PCB 例 程 的 部 分 代码 。 例 程 pcb- 
< | SeUp 用 于 创建 任务 2 和 任务 3。 其 中 寄存 器 10 是 任务 的 人 口 地 址 一 entryAddr 标号 ， 
О 也 就 是 任务 的 执行 地 址 ;寄存 器 rl 是 PCB 数据 结构 的 地 址 一 一 pcbAddr 标号 ,这 个 地 址 指 
Q | 向 存放 某 个 任务 PCB 的 存储 块 ;寄存 器 r2 存放 堆栈 偏 移 值 , 用 来 定位 堆栈 在 存 俏 器 喘 射 中 
J| mew. 

б 注意 : 因为 任务 ] 是 第 一 个 执行 的 征 务 ,所 以 它 不 需要 初始 化 。 

Ф 

Q 建立 PCB 的 最 后 一 步 是 设置 当前 任务 的 标识 符 , 调 度 算法 根据 该 标识 符 来 决定 当前 应 
$| wt. 

Q LDR rü, = РСВ CurrentTask 

С. MN г1,#0 

e! 

(D STR — rl,[r0] 


LDR lr, =C Entry 
Mov plr penter the CEntry world 


在 程序 段 的 最 后 调用 了 第 一 个 C 例 程 -一 C_Entry, 这 通过 将 此 例 程 的 起 始 地 和 钼 赋 给 
pc 来 实现 。 
PCB 初始 化 过 程 执行 完毕 的 结果 如 下 : 


€ 初始 化 了 所 有 3 个 任务 的 PCB; 
e 设置 当前 要 执行 的 PCB 为 任务 1( 标 识 符 为 0) 。 


现在 初始 化 过 程 交 给 例 程 C_Entry, 该 例 程 在 build/src/core/cinit. c РЕВ, C En- 
try 例 程 调用 另 一 个 例 程 cinit, initO ,cinit_init(? 例 程 (代码 在 下 面 给 出 ) 初 始 化 设备 驱动 程 
译 、 事 件 服 务 和 周期 性 中 断 。 这 个 C 程序 设计 成 不 需要 标准 C 库 的 支持 ,因为 它 没 调用 任 
何 标 准 C BEP AS 8838 , [RI printf ORI fopen() 等 。 
void cinit init(void) 
i 
eventIODeviceInit(); 
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eventServicesIniti), 
eventTickInit(2); 
} 


函数 eventIODevicelnit() , eventServicesInit O8 eventTickInitO 分 别 用 来 初始 化 操作 


系统 的 各 个 不 同 部 分 。eventTickInit() 只 有 一 个 参数 , 值 为 2。 这 个 参数 用 来 设置 周期 性 中 
断 的 时 间 间 隔 ( 以 ms A HD 
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cinit_initt) 便 程 的 初始 化 完成 以 后 ,周期 性 定时 器 就 被 月 动 了 (代码 参见 下 面 的 性 En- 
try 例 程 )。 这 就 意味 着 任务 1 应 该 在 定时 器 第 一 次 中 断 之 前 被 调用 。 为 使 周期 性 事件 可 以 
中 断 处 理 器 ,必须 使 能 IRQ, 且 处 理 器 必须 处 于 用 户 模式 下 。 将 这 些 设置 完成 后 ,就 可 以 调 
用 尾 务 1 的 人 口 地 址 C. EntryTaskl, 
int C Entry(void) 
{ 
cinit initQ; 
eventTickStart(); 


. asm 





{ 
MSR CPSR c, # 0x50 
) 
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C EntryTask1(); 
return 0б; 


) 


如 果 程 序 正常 运行 ,那么 C Entry 例 程 最 后 的 return 语句 将 永远 不 会 执行 到 。 至 此 ， 
完成 了 所 有 初始 化 工作 ,操作 系统 就 可 正常 工作 了 。 
所 有 心 初始 化 代码 执行 完毕 的 结果 如 下 : 


e 设备 驱动 程序 被 初始 化 ; 

e 事件 服务 被 初始 化 ; 

e 周期 性 定时 器 被 初始 化 并 启动 ! 

€ 在 cpsr 中 使 能 了 IRQ 中 断 ; 

e 处 理 器 工作 在 用 户 模式 ; 

e 调用 了 任务 1 的 人 口 地 址 (C_EntryTask1)》 ， 
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11.2.3 存储 模型 


SLOS 采用 一 个 简单 的 存储 模型 ,如 图 11.2 所 示 。SLOS 的 代码 部 分 (包括 任务 } 分 配 
ЕИ ЕЕ IRO 和 每 个 任务 的 堆栈 分 配 在 存储 器 高 端 ,SVC ЖЮ ОТЕ ИЕДИ. 
图 11.2 中 的 箭头 表示 堆栈 的 增长 方向 。 
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ОО 微 控 制 器 寄存 器 
0x03ff0000 


任务 3 堆栈 基地 址 
任务 2 堆栈 基地 址 


IRQ 堆 栈 基地 址 





代码 


图 11.2 存储 器 映射 


11.2.4 中 断 和 异常 处 理 


SLOS 操作 系统 的 实现 实际 上 只 用 到 3 个 异常 ,其 它 异 常 都 被 忽略 。 当 遇 到 其 它 未 使 


表 11.2 异常 分 配 用 的 异常 时 , 便 进入 相应 的 哑 处 理 程序 。 为 
"RE ы = 安全 起 见 , 这 里 将 这 些 哑 处 理 程序 设计 成 死 
"ча NER 5 循环 。 为 完善 这 个 操作 系统 ,这 些 哑 处 理 程 
на балааны 序 需要 用 完整 的 处 理 程序 来 替换 。3 个 异常 
及 其 在 操作 系统 中 的 使 用 方法 如 表 11. 2 

IRQ 事件 服务 机 制 所 列 . 


复位 向 量 只 在 初始 化 阶段 被 调用 一 次 。 理论 上 ,可 以 再 次 调用 它 来 重新 初始 化 系统 一 一 


例如 ,由 看 门 狗 定时 器 溢出 引发 的 处 理 器 复位 。 当 系统 长 时 间 没 反应 时 ,看 门 狗 定时 器 可 以 用 
来 复位 系统 。 


应 用 程序 通过 SWI 处 理 机 制 来 调用 设备 驱动 程序 。SWI 指令 迫使 处 理 器 从 用 户 模式 切 
换 到 SVC 模式 。 内 核 的 SWI 处 理 程序 在 下 面 列 出 ,处 理 程序 的 第 一 步 是 将 寄存 器 rl~rl2 保 








存 到 SVC 堆栈 中 ， 

下 -一步 是 计算 SW 指令 的 地 址 ,并 将 指令 装载 到 寄存 器 r10。 将 SWI 指令 的 高 8 位 屏蔽 
后 , 便 得 到 了 SWI 号 ;然后 将 SVC 堆栈 的 地 址 复制 到 寄存 器 r1 ,并 以 其 作为 调用 SWI C 处 理 
程序 的 第 2 个 参数 。 

然后 将 spsr 复制 到 寄存 器 莹 ,并 保存 到 堆栈 中 。 这 一 步 只 有 当 发 生 SWI BOR BRI E 
需要 。 接 下 来 处 理 程序 将 跳 转 到 调用 C 处理 例 程 的 代码 处 ， 


coreSWIHandler 
STMFD spl, {50 — z12,r14] Ж E T X 
LDR г10,[714,# — 4] ;装载 WI 指 今 
BIC r10,r10, # 0х##000000 IR Bi 
MOV rl,r13 ;将 r13 svc 复制 到 ri 
MRS I2,SpsSr ;将 spsr 复制 到 c2 
STMFD r13!,(r2] :将 r2 保存 到 堆栈 
BE swi jumptable PERSE | swi junptable 


使 用 BL 指令 后 面 的 代码 返回 到 调用 SWI 的 程序 ,如 下 面 代码 所 示 , 从 堆栈 中 恢复 spsr 
和 所 有 用 户 模 式 下 的 寄存 器 (包括 ро), 


LDMFD rii3l.ir2) HEB r2(spsr) 
MSR Spsr схзГ,г2 ;将 r2 复制 到 spsr 
LDMED r131, [r0 - r12, pe^ ;恢复 上 下 文 并 返回 


BL 指令 设置 链接 寄存 器 。 当 SWI C 处 理 程序 完成 时 ,将 执行 以 下 代码 。 


Swi  jumptable 
HOV rů, rið ;将 си 号 复制 到 го 
В eventsSWiBandler Bb BI SWT 处 理 程序 


C 处 理 程序 eventsSWIHandler Ifl T f6 ES BU PD ЖИ НВ го 包含 SWI 号 ,寄存 
器 rl 指向 保存 在 SVC 堆栈 中 的 寄存 器 。 


void eventsSWIHandler(int swi number, SwiRegs * r) 
{ 
if (swi_number = = SLOS) 
{ 
if (т->г[@]= = Event IO0Devicelnit) 
1 
/* 不 使 能 IRO hit »/ 
ioInitializeDrivers (); 


} 
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else 


{ 


/x 若非 初始 化 , 则 切换 到 系统 模式 ,并 使 能 rno < / 
if (STATEI- 1) (modifyControlCPSR (SYSTEM|IRQoN);! 


switch (r - 110] 

{ 

case / * SWI + / Event. T0DeviceOpen, 
r- >r[0]= 
(unsigned int) io open driver 
( 
/*int «ID x/ (UID #)г->г[1], 
/ ж unsigned major device + / r- >r[2], 
/ ж unsigned minor device x / r- >r[3] 
n 

break; 

case / ж БИТ x / Event IODeviceClose, 
/* 调用 io close driver */ 
break; 

case / * SKI » / Event IODeviceRriteByte, 
/* 调用 io writebyte driver + / 
break; 

case / * SWI к / Event_IODeviceReadByte, 
/* WH іо readbyte driver x / 
break, 

case / + SWI # / Event IODeviceWriteBit, 
/* 调用 io writebit driver x / 
break; 

case / и SHI #/ Event, IODeviceReadBit, 
/* 调用 io readbit driver » / 
break; 

case / * SWI + / Event, JODevicelriteBlock, 
/* 调用 io writeblock driver x / 
break; 

case / * SWI = / Event TODeviceReadBlock, 
/* 调用 io readblock driver x / 
break, 





П (PRATER 





} 
/ * 若非 初始 化 ,切换 回 管理 模式 并 禁用 IRQ * / 
if (ЅТАТЕ!= 1) {modifyControlCPSR (SVC| IRQoFF) ; ) 


IRQ 处 理 程序 比 SWI 处 理 程序 简单 得 多 ,将 它 设计 为 不 支持 嵌 套 的 基本 中 断 处 理 程序 。 
处 理 程序 首先 保存 上 下 文 ;然后 将 中 断 控制 器 的 中 断 请 求 寄 存 器 INTPND 复制 到 寄存 器 10; 
接 下 来 每 个 中 断 服务 例 程 将 其 自身 所 代表 的 中 断 源 与 寄存 器 rO 进行 比较 ,如 果 匹 配 , 则 该 例 
程 被 调用 ,否则 将 寄存 器 INTPND 所 表示 的 中 断 看 作 虚 中 断 并 忽略 它 。 


suuəlsÁs 6ulDiedao pəppəqui:3 || 


TICKINT EQU 0х400 
BUTTONINT EQU 0х001 
eventsIRQHandler 
SUB г14, rl4, #4 ;r14 іга -= 4 
STMFD r13!, (10-3, r12, г14) ;保存 上 下 文 
LDR r0, INTPND ;r0 = 中 断 状态 寄存 器 
LDR го, [r0] ;r0 = nenory[ 10] 377 
TST rO, $t TICKINT ; 若 定时 器 中 断 | 
BNE eventTickVeneer ; 则 定时 器 中 断 服务 程序 
TST rO, # BUTTONINT ; 若 按键 中 断 
BNE eventButtonVeneer ; 则 按键 中 断 服务 程序 
LDMFD r13!, {r0-r3, r12, pc]: ;返回 到 任务 


对 于 系统 认可 的 中 断 源 , 将 调用 各 自 的 中 断 服务 例 程 (veneer) 来 处 理 这 个 中 断 事件 下 
面 的 代码 是 一 个 定时 器 中 断 服务 例 程 ,从 例子 中 可 看 出 该 中 断 服务 例 程 包含 2 个 调用 :第 1 个 
是 复位 定时 器 例 程 eventsTickService( 平 台 特有 的 调用 ); 第 2 个 是 称 为 调度 程序 的 ker- 
nelScheduler 例 程 ,该 例 程 依次 调用 上 下 文 切换 ， 


eventTickVeneer 


BL eventTickService ;复位 定时 器 硬件 
B kernelScheduler ; 跳 转 到 调度 程序 


不 需要 将 寄存 器 r4—r12 放 到 IRQ 堆栈 中 ,因为 调度 算法 和 上 下 文 切 换 将 会 仔细 处 理 这 
些 寄存 器 。 
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11.2.5 调度 程序 


SLOS 的 底层 调度 程序 (或 称 为 分 发 程序 ,dispatcher) 采 用 简单 的 静态 循环 算法 ,如 下 面 
的 伪 代 码 所 示 。 这 里 的 “静态 * 是 指 , 任 务 只 能 在 操作 系统 初始 化 时 创建 。SLOS 中 的 任务 在 
操作 系统 处 于 活动 状态 时 , 既 不 能 创建 ;也 不 能 删除 。 


task t=0,t'; 


scheduler() 
1 
t'*t*1, 
if t! = MAX NUMBER OF TASKS then 
t'=0 7/ 第 一 个 任务 


end; 


ContextSwitch(t,t*) 
і 


如 前 面 所 述 ,在 初始 化 阶段 ,将 当前 活动 任务 上 的 РСВ 地 址 PCB_CurrentTask 置 为 任务 
0。 当 定时 器 中 断 产 生 时 ,新 任务 妃 等 于 当前 任务 号 2 1。 如 果 任 务 呈 等 于 任务 数 最 大 值 
MAX NUMBER_OF_TASKS, 则 将 任务 EB ROSE 0. | 

# 11. 3 列 出 了 调度 程序 所 使 用 的 标号 及 其 在 算法 中 的 含义 。 下面 关于 调度 程序 的 过 程 
和 代码 描述 都 会 用 到 这 些 标号 。 


31.5 调度 程序 使 用 的 变量 





* + Ao 

PCB CurrentTask 保存 当前 任务 

PCB, Table 每 个 任务 PCB нан 
PCB_PrrCurrentTask 当前 任务 + 的 指 畦 

РСВ, PtiNextTask 下 一 个 任务 二 的 指针 

PCB, IRQStack  IRQXEHUB НЕ BERE CET CELO 


(D М РСВ CurrentTask 中 获得 当前 任务 ID; 


(D 在 PCB_Table Ф РСВ Current Task 作为 案 引 找到 当前 任务 对 应 的 PCB Ж; 
Q 使 用 步 又 多 所 获得 的 地 址 来 更 新 PCB PtrCurrentTask 的 值 ; 
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D 使 用 循环 算法 计算 新 任务 oH ID; 

Бу Is] ID it PCR CurrentTask; 

© Ж РСВ Table 中 使 用 更 新 后 的 PCB_CurrentTask 作为 索引 找到 下 一 个 任务 的 PCB 
na; 

中 将 下 一 个 任务 的 PCB 地 址 保存 到 PCB, PtrNextTask, 

调度 下 一 个 任务 小 的 代码 如 下 : 


MaexNumTasks EQU 3 


SUJSISAS бицоәасо рәррәсшд {| 


FirstTask EQU 0 

CurrentTask 
LDR rJ, = PCB CurrentTask ;[1] r3 = PCB CurrentTask 
LDR rô, [r3] yr0 = 当前 任务 ID 
LDR rl, = РСВ Table #2] zl = РСВ Table address 
LDR rl,[rl,r0,LsLjf 2] irl = mem32[r1 + гб << 2] 
LDR r2, = РСВ PtrCurrentTask | [3] r2 = РСВ PtzCurrentTask 
STR гі,[12] fmem32[r2] = rl : 任务 地 址 


;* ж РСВ PtrCurrentfask ~ updated with 当前 任务 的 地 址 
рж ж 12 = РСВ PtrCurrentTask 地 直 
жж rl 当前 任务 PCB 地址 


гж r0- 当前 性 务 ID 379 
NextTask 
ADD тб,гб,{ 1 [4] z0 = (CurrentTaskID) + i 
СМР Yọ, # MaxNumTasks rif rÜ == MaxNunTasks 
MOVED t0, Ё FirstTask then г) = FirstTask (0) 
STR г0,[т3] ;[5] шей32[ү3] = next Task ID 
LDR rl, = РСВ Table [6] x17 РСВ Table addr 
LDR гі,[г1,г0,151#2] iri = memory[r1 + r0 << 2] 
LDR rÜ, = РСВ PtrNextTask ; [7] гб = РСВ PErNext Task 
STR rl,[r0) ;memory[ r0 ] = next task addr 
执行 完 调 度 程序 以 后 的 结果 如 下 ， 


€ PCB PtrCurrentTask 指向 当前 活动 的 PCB ИҢЕ; 
€ PCB PuNextTask 指向 下 一 个 活动 的 PCB Mbit; 
€ РСВ CurrentTask 保存 下 一 个 性 务 的 太 值 ， 
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> 
А 
< 11.2.6 上下文 切 换 
CD 
< 
备 | 上 下 文 切换 使 用 调度 程序 产生 的 更 新 信息 ,交换 活动 任务 :和 下 一 个 任务 1，。 为 达到 这 
J| 一 目的 ,上 下 文 切换 将 这 个 过 程 分 成 2 个 阶段 ,如 图 11. 3 所 示 。 第 一 阶段 将 处 理 器 寄存 器 保 
5 存 到 由 PCB_PtrCurrentTask 指向 的 当前 任务 上 的 РСВ 中 ;第 二 阶段 将 由 PCB_PtrNextTask 
Š | 指向 的 下 一 任务 РСВ 数据 恢复 到 寄存 器 中 ， | 
9 下 面 简单 介绍 上 下 文 切换 2 个 阶段 的 过 程 和 代码 ,先是 保存 当前 任务 的 上 下 文 ,然后 恢复 
2 新 任务 的 上 下 文 。 
Q 
С. 
б 处 理 器 
- (в) 保存 当前 任务 的 上 下 文 O) 恢复 下 一 个 任务 的 上 下 文 
图 11.3 上 下 文 切换 


第 一 阶段 是 保存 当前 活动 任务 ;的 寄存 器 。 所 有 的 任务 都 在 用 户 模式 下 运行 ,所 以 必须 
保存 用 户 模式 下 的 实 存 器 。 步 骤 如 下 ; 
(D 必须 从 堆栈 中 恢复 寄存 器 r0~r3 和 rl4, 这 些 寄存 器 属于 当前 任务 ; 
D 寄存 器 rl3 用 于 指向 当前 任务 PCB_CurrentTask 的 PCB, 偏 移 量 为 一 60, 这 个 偏 移 量 
允许 2 条 指令 来 更 新 整个 PCB; 
O 保存 所 有 用 户 模式 下 的 寄存 器 r0~r14, 这 只 要 用 一 条 指令 来 完成 。 符 号 “” 表 示 对 用 


户 模式 下 寄存 器 的 多 次 存储 操作 。 第 二 条 存储 指令 保存 spsr 和 用 于 返回 的 链接 寄 
存 器 。 


将 寄存 器 保存 到 PCB 中 的 代码 为 
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Offsetl5Regs EQU 15*4 


handler contextswitch 


LDMFD r13!, (r0 - r3, r12,r14) [1.1] 恢复 寄存 器 
LDR r13, = PCB PtrCurrentTask [1.2] 
LDR r13,[r13] ;r13 = nen32[ r13] 
SUB r13,r13, # Offsetl5Regs :г13 -= 15 * Reg; place r13 
STMIA r13, (10 - г14)^ [1.3] 保存 用 户 模式 下 的 寄存 器 
MRS r0, spsr ;复制 spsr 
STMDB r13,(r0,r14) ;保存 r0 spsr) fül r14(1r) 
保存 当前 任务 上 下 文 以 后 的 结果 如 下 : 


e 复位 IRQ 堆栈 并 将 它 保存 到 РСВ IRQTask; 
e 任务 :的 用 户 模式 下 的 寄存 器 被 保存 到 当前 PCB 中 。 


上 下 文 切换 的 第 二 阶段 是 将 t h PCB 恢复 到 用 户 模式 下 的 寄存 器 中 。 完 成 了 这 一 过 程 ， 
例 程 接着 就 必须 将 控制 权 转交 给 新 任务 г. БЕШТЕ. 
(D 恢复 并 将 r13 设置 到 与 新 任务 PCB 的 起 始 地 址 偏 移 为 一 60 的 位 置 ; 
(D 首先 恢复 寄存 器 spsr 和 链接 寄存 器 ,然后 恢复 下 一 个 任务 的 寄存 器 r0~r14, 寄 存 器 
rl4 是 用 户 模式 下 的 寄存 器 r14, 而 不 是 指令 中 带 有 符号 “” 的 IRQ 寄存 器 r14; 
@ 从 PCB_IRQStack 恢复 IRQ 堆栈 ; 
O 复制 保存 在 寄存 器 r14 中 的 地 址 到 pc, 并 更 新 cpsr, 以 继续 运行 新 任务 。 


suuejsAs бицоәао pəppəqu:3 Ll 


381 


从 PCB 中 恢复 寄存 器 的 代码 如 下 : 
LDR r13, = PCB PtrNextTask :[2.1] r13 = РСВ PtrNextTask 
LDR r13,[r13] ;r13 = nen32[r13] ; 下 一 个 任务 РСВ 
SUB r13,r13, # Offset15Regs ;113 -= 15 ж Registers 
LDMDB r13,(r0,r14) 2.2] 装载 rO 和 г14 
MSR Spsr cxsf, г0 ;Spsr = r0 
LDMIA r13,(r0- r14)* ;装载 r0 user - r14 user 
LDR r13, - PCB IRQStack [2.3] r13 = IRQ 堆栈 地 址 
LDR r13,[r13] ;r13 = mem32[r13] ; 复位 IRQ 
MOVS рс,г14 И i[2.4] 返 回 到 下 一 个 任务 
恢复 新 任务 上 下 文 以 后 的 结果 如 下 : 


e 上 下 文 切换 完成 








epino sedong uel[sAS у 


382 





ARM 嵌入 式 系统 开发 


e 新 任务 的 寄 和 存 器 恢复 到 用 户 模式 于 的 寄存 噬 中 | 
e IRQ 堆栈 人 恢复 到 进入 IRQ 中 断 处 理 程 序 之 前 的 设置 。 


11.2.7 设备 驱动 程序 框架 


使 用 SWI JR Sr ЖУ dr SE SI BUT ЖЕДЕ DDF Device Driver Framework) „ DDF 保护 操作 
系统 ,使 应 用 程序 不 能 坦 接 访问 硬件 ,并 提供 一 个 统一 的 标准 接口 给 所 有 任务 。 如 果 任 务 想 访 
问 一 个 特定 设备 , 则 它 必须 先 获 得 一 个 惟一 的 标识 号 UID。 这 通过 油 用 疗 开 宏 (eventsIODe- 
viceOpem) 来 完成 。 这 个 宏 被 直接 转换 成 一 条 设备 驱动 程序 SWI 指令 。UID 用 来 保证 没有 其 
它 任务 正在 访问 相同 的 设备 

打开 一 个 设备 驱动 程序 的 任务 代码 如 下 、: 

device treestr + host; 


UID serial; 
host eventIODevwiceOpen(&serial,DEVICE SERIAL ETT,COMl); 


if (host == 0) 
{ 
/ * ** error device driver not found ө x / 


} 


Switch (serial) 

I 

case DEVICE IN USE. 

Case DEVICE UNKNOWN, 

/ *** problem with device ++ ж / 


} 


这 个 例子 说 明了 如 何 使 用 设备 驱动 程序 框架 来 打开 一 个 串 行 设备 ， 
可 以 使 用 一 些 宏 将 参数 传送 到 寄存 器 r1~~r3, 然 后 这 些 寄存 器 通过 SWI 机 制 传 给 设备 驱 
动 函 数 。 在 这 个 例子 中 ,实际 上 只 有 寄存 器 rl 指向 的 值 ( 忆 serial) 是 被 更 新 的 。 这 个 值 用 来 
返回 UID, 如 果 返 回 值 为 0, 则 表示 出 销 。 
下 面 的 代码 显示 了 宏 eventlODeviceOpen 如 何 转化 成 一 个 SWI 指令 调用 ， 
PRE rÜ = Event. IODeviceOpen (unsigned int) | 
гі = &serial (UID кау) 
r2 = DEVICE SERIAL Е7Т (unsigned int major) 
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r3= СОМ1 (unsigned int minor) 
SWI 5075 


POST rl = UID 指针 指 向 的 数据 改变 了 

当 任务 运行 在 非特 权 模式 下 时 ,可 使 用 SWI 切换 到 特权 模式 ,这 样 就 多 许 设备 驱动 程序 
完全 访问 cpsr。 图 11. 4 说 明了 当 调 用 一 个 设备 驱动 程序 函数 时 实际 的 模式 变化 。 从 图 中 可 
看 出 设备 驱动 程序 自己 在 系统 模式 (为 特权 模式 ) 下 执行 。 


SUUelSAS бицоәао рәррәди || 





图 11.4 调用 设备 驱动 程序 
一 旦 执行 SWI 指令 ,处 理 器 就 进入 SVC 模式 ,并 且 IRQ 中 断 自动 关闭 。 只 有 当 处 理 器 
切换 到 系统 模式 时 ,中 断 才能 继续 使 用 。 只 有 一 个 例外 , 那 就 是 在 初始 化 阶段 调用 设备 驱动 程 
序 。 在 这 种 情况 下 ,中 断 仍 然 是 禁止 的 ， 
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11.3 总 结 





一 个 运行 在 ARM 处 理 器 上 的 嵌入 式 操作 系统 的 基本 模块 如 下 ， 


e NU LE (initialization) 建立 所 有 的 内 部 变量 、 数 据 结构 和 操作 系统 使 用 的 硬件 
设备 。 

© Л (memory handling) 组 织 存储 器 ,以 容纳 内 核 和 要 执行 的 各 种 应 用 
程序 。 

* PUR А Ж ЖЕ Ж — AMEER ,对 于 未 使 用 的 中 断 和 异常 必须 提供 一 个 吗 
处 理 程序 。 








384 


ARM BRA LETT A 


әрп suedoje^eg WAAS WAY 





e KERI MIA TEER AE , 该 定时 器 产生 周期 性 的 中 断 ,以 调用 调度 
程序 。 

e 请 度 配 序 是 用 来 决定 下 一 个 要 执行 哪个 任务 的 算法 。 

外 上下文 纠 获 保存 当前 任务 的 状态 并 恢复 下 一 个 任务 的 状态 。 


以 下 这 些 模块 在 一 个 被 称 为 简单 小 型 操作 系统 (SLOS) 的 操作 系统 里 都 有 相应 的 例子 : 


e NS HLERS-— Sv SLOS 的 所 有 功能 模块 ,包括 模式 堆栈 、 每 个 应 用 程序 的 进程 
控制 块 (PCB) 和 设备 驱动 程序 等 

e ЖЕШ -SLOS 内 核 位 于 存储 天 低地 址 ,每 个 应 用 程序 都 有 自己 的 存储 空间 和 
堆栈 , 微 控 制 器 系统 寄存 器 独立 于 ROM 和 SRAM, 

e IER — SLOS 只 使 用 3 个 事件 ,复位 .SWI 和 IRQ, 所 有 的 未 使 用 的 中 断 和 
异常 都 提 殿 一 个 三 处 理 程序 (如 死 循 环 ) 。 | 

e ЖЯ EF SLOS 实现 一 个 简单 的 循环 调度 程序 ， 

e 上 下 文 妃 苹 - 一 -首先 将 当前 上 下 文保 存 到 一 个 PCB 中 ,然后 从 另 一 个 PCB 中 恢复 
下 一 个 任务 的 上 下 文 。 

e 设备 粮 动 程序 竹 柳 一 一 保护 操作 系统 ,以 使 应 用 程序 不 能 直接 访问 硬件 。 
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cache 是 一 种 容 基 小 ,速度 快 的 存储 器 阵列 ， 它 位 于 主 存 和 处 理 器 内 核 之 间 ,保存 着 最 
近 一 段 时 间 处 理 器 涉及 到 的 主 存 块 内 容 。 在 需要 进行 数据 读 取 操作 时 ,为 了 改善 系统 性 能 ， 
处 理 器 尽 可 能 从 cache 中 读 取 数据 ,而 不 是 从 主 存 中 获取 数据 ，cache 的 主要 目标 就 是 , 减 
小 慢 速 存储 器 给 处 理 器 内 核 造成 的 存储 器 访问 瓶颈 问题 的 影响 。 

cache Ж 5j 5 2E ph #Ë (write buffer) 一 起 使 用 。 写 缓冲 器 是 一 个 非常 小 的 先进 先 出 
(FIFO) 存 依 器 ,位 于 处 理 器 核 与 主 存 之 间 。 使 用 写 缓冲 器 的 目的 是 ,将 处 理 器 核 和 cache 
从 较 惕 的 主 存 号 操作 中 解脱 出 来 。 

cache 是 一 个 法 语 单词 ,意思 是 “ 隐 和 项 的 存储 场所 *。 将 cache 使 用 到 ARM ВА ЖАЯ 
中 ,这 个 定义 就 显得 更 加 贴切 了 。cache 存储 器 和 写 缓冲 器 加 到 处 理 器 内 核 上 之 后 ,对 软件 
代码 的 执行 是 透明 的 。 这 样 在 一 个 拥有 cache 的 处 理 器 内 核 上 运行 以 前 写 的 软件 时 ,代码 
就 不 需要 重新 编号。 虽然 cache 和 写 缓冲 器 都 有 附加 的 控制 硬件 ,可 以 自动 处 理 主 存 与 处 
理 器 之 阅 的 代码 和 数据 的 尾 送 ,但 是 了 解 外 理 器 cache 的 设计 细节 ,可 以 帮助 编程 人 员 在 特 
定 的 ARM 核 上 编写 出 执行 更 快 的 程序 。 

本 章 主 要 描述 cache 能 做 的 许多 有 效 的 工作 ,以 使 程序 执行 得 更 快 。 但 是 在 系统 中 使 
用 cache Ж ЖЕКЕ ЖОЕ? 答案 是 肯定 的 。 其 中 最 主要 的 刺 端 就 是 ,很 难 判断 一 个 
程序 的 执行 时 间 。 下 面 将 对 此 作出 解释 ， 

因为 cache 存储 器 只 提供 了 主 存 中 非常 少 的 一 部 分 数据 ,在 程序 执行 过 程 中 ,cache 会 
很 快 被 填 满 。 一 旦 被 十 满 ,cache 控制 器 就 会 频繁 地 从 cache 存储 器 中 移出 原来 的 代码 和 数 
据 , 以 给 新 的 代码 和 数据 留 出 存储 空间 。 这 种 移出 操作 一 般 是 随机 发 生 的 , 它 会 留 下 一 部 分 
数据 而 将 其 它 部 分 移出 。 这 样 ,在 任何 一 个 给 定 的 时 刻 , 某 个 数值 可 能 在 cache 中 ,也 可 能 
不 在 。 

既然 数据 在 任何 一 个 给 定 的 时 刻 可 能 在 cache 中 ,也 可 能 在 主 存 中 ,由 于 直接 使 用 
cache 中 的 数据 和 从 主 存 中 装载 cache 的 一 行 数据 所 需 时 间 不 一 样 ,因此 一 个 程序 每 次 执行 
所 移 时 间 就 会 有 轻微 的 盖 别 。 

本 章 将 介绍 cache 在 标准 的 存储 层次 中 所 处 的 位 置 , 以 及 存储 器 访问 的 局 部 性 原理 ,以 
此 来 解释 cache 基 如 何 改善 系统 性 能 的 ;然后 简单 介绍 一 下 cache 的 体系 结构 ,并 定义 一 系 
列 ARM 常用 术语 ;最 后 ,提供 一 些 示例 代码 ,示范 如 何 小 再 (ciean) PRU BR (ush) cache, Ш, 
A ЖМ БЕН Б Б gi ЕТЕ cache 中 。 


+ НДЕН cache 在 存 情 屋 次 上 处 于 同一 层次 ,只 是 在 进行 主 存 写 操作 时 才 届 用 写 提 冲 器 。-- 译 者 注 
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第 1 章 介绍 了 计算 机 系统 中 的 存储 器 分 层 结构 ,图 12.1 更 好 地 显示 了 cache 和 写 缓冲 
器 在 存储 器 层次 结构 中 所 处 的 位 置 。 
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图 12.1 存储 器 的 层次 结构 


存储 层次 的 最 内 ( 顶 ) 层 在 处 理 器 内 核 中 。 该 存储 器 与 处 理 器 的 结合 非常 紧密 ,以 致 在 
很 多 情况 下 ,很 难 将 两 者 分 开 。 该 存储 器 被 称 为 寄存 器 文件 (register file)。 这 些 寄存 器 被 
集成 在 处 理 器 内 核 中 ,在 系统 中 提供 最 快 的 存储 访问 。 

接 下 来 是 一 级 存储 器 ,存储 部 件 与 处 理 器 内 核 通过 专用 的 片上 接口 连接 起 来 。 紧 耦合 
存储 器 (TCM) 和 一 级 cache 就 在 这 一 层 。 后 面 会 介绍 更 多 关于 cache 的 内 容 。 

EFELER- RE, WEED A H ( 即 掉 电 后 会 导致 数据 丢失 ) 存 储 器 ,如 SRAM, 
DRAM [LR — EE £j A PE 存储 器 ( 掉 电 后 数据 不 会 丢失 ) 如 Flash 存储 器 。 主 存 的 主要 任 
务 就 是 承载 在 系统 中 运行 着 的 程序 。 

再 下 一 层 是 二 级 存储 器 (辅助 存储 器 ), 即 低速 的 相对 较 便 宜 的 大 容量 存储 设备 ,如 硬盘 
存储 器 和 可 移动 存储 器 。 在 这 一 层 里 ,还 有 从 外 围 设备 得 到 的 数据 ,其 访问 时 间 特 别 长 。 











ARM 嵌入 式 系统 开发 


二 级 存储 器 用 来 存储 正在 运行 的 较 大 程序 的 未 被 使 用 的 部 分 (由 于 程序 过 大 ,不 适合 将 全 部 
程序 都 放 在 主 存 中 ) ,或 者 存放 当前 没有 运行 的 程序 。 

需要 指出 的 是 ,存储 层次 结构 不 但 依赖 于 体系 结构 的 设计 ,也 依赖 于 相关 的 工艺 和 技 
术 。 例 如 ,TCM 和 SRAM 在 技术 上 相同 ,但 在 结构 排列 上 不 同 :TCM 在 片上 ,而 SRAM 在 
ҖЕ. 

在 存储 层次 中 ,cache 可 以 被 放置 于 存在 明显 访问 速度 差异 的 任何 层次 上 ,并 且 可 以 改 
善 系统 性 能 。cache 存储 器 系统 把 存储 层次 中 较 低 层次 的 信息 取出 ,并 把 它们 临时 存放 到 
较 高 的 层次 中 。 

图 12. 1 包含 了 一 个 L1 cache 和 一 个 写 缓冲 器 。L1 cache 是 一 个 高 速 片上 存储 阵列 ， 
用 来 临时 承载 低层 存储 器 中 的 程序 和 代码 。cache 所 装载 的 信息 可 以 缩短 访问 指令 和 数据 
所 需要 的 时 间 。 写 缓冲 器 则 是 一 个 容量 很 小 的 FIFO 缓冲 器 ,其 主要 作用 就 是 对 由 cache 
中 写 到 主 存 的 数据 提供 缓冲 。 

12. 1 中 没有 把 L2 cache 标记 出 来 , 它 应 该 位 于 L1 cache 和 更 低层 的 存储 器 之 间 。 
通常 也 把 L1 cache 和 L2 cache 分 别称 作 一 级 cache 和 二 级 cache, 

从 图 12. 2 中 可 以 看 出 cache 与 主 存储 器 系统 和 处 理 器 内 核 之 间 的 关系 。 图 的 上 半 部 
分 是 一 个 没有 cache 的 系统 ,处 理 器 内 核 以 自己 支持 的 数据 类 型 方式 直接 访问 主 存 。 图 的 
下 半 部 分 是 一 个 带 有 cache 的 系统 ,cache 的 存 取 速度 比 主 存 快 得 多 ,这 样 处 理 器 内 核对 数 
据 的 访问 请 求 可 有 快速 的 响应 。cache 与 主 存 的 关系 主要 体现 在 高 速 cache 和 低速 主 存 之 
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没有 cache 的 系统 








带 有 cache 的 系统 





图 12.2 ” cache、 处理 器 内 核 及 主 存 之 间 的 关系 
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间 传送 小 块 数据 上 ,这 样 的 小 块 数据 被 称 作 cache 17. 写 缓冲 器 作为 临时 缓冲 器 帮助 cache 
释放 存储 空间 , 即 从 cache 中 搬出 的 数据 暂 存在 写 缓冲 器 中 。cache 控制 器 将 cache 行 以 较 
高 的 速度 放 到 写 缓冲 器 中 ,之 后 写 缓冲 器 以 较 低 速度 将 该 cache 行 写 人 主 存 中 。 
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cache 和 存储 器 管理 单元 


如 果 带 cache 的 处 理 器 内 核 支持 虚拟 存储 ,那么 cache 就 可 以 被 放 在 处 理 器 内 核 与 存储 
器 管理 单元 ММО 之 间 , 或 者 在 MMU 与 物理 存储 器 ( 主 存 ) 之 间 。cache 放置 在 ММО 之 
前 或 之 后 ,决定 了 cache 的 寻 址 范围 和 编程 结构 (程序 员 看 到 的 cache 结构 ) E 12. 3 显示 
了 cache 在 系统 中 的 不 同位 置 带 来 的 差异 。 





虚拟 存储 器 | 。 物理 存储 器 
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图 12.3 jE38 cache 和 物理 cache 


3E 88 cache 在 虚拟 地 址 空间 存储 数据 , 它 位 于 处 理 器 和 ММО 之 间 。 处 理 器 可 以 直接 
通过 逻辑 cache 访问 数据 ,而 无 须 通 过 ММО, 3E SR cache ХЕЙ cache 。 

物理 cache 使 用 物理 地 址 存储 数据 , 它 位 于 MMU 和 主 存 之 间 。 当 处 理 器 访问 存储 器 
时 ,MMU 必须 先 把 虚拟 地 址 转换 成 物理 地 址 ,cache 存储 器 才 可 以 向 内 核 提供 数据 。 
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带 有 cache 和 MMU ffl ARM 处 理 器 中 ,从 ARM? 到 ARMIO, 6 ff Intel StrongARM 
和 Inte! XScale 处 理 器 ,都 使 用 逻辑 cache. ARM11 处 理 器 (ARMYv6 体系 结构 ) 系 列 使 用 物 
理 cache。 有 关 MMU 的 其 它 内 容 可 以 参考 本 书 第 14 章 。 

使 用 cache 来 改进 性 能 是 可 行 的 ,因为 计算 机 程序 的 执行 并 不 是 随机 的 。 程 序 执行 的 
可 预测 性 是 cache 系统 成 功 的 关键 。 如 果 程 序 对 存储 器 的 沪 问 是 随机 的 ,那么 cache 对 整个 
Ке Е ВЕЛО АВА ВЕ, ЕАР ТН АТ НЕДА ГДЕ ЕН ЕВЕ НА ТЕ 
系统 中 加 入 cache 可 以 改善 性 能 ， 这 个 原理 表明 :程序 在 执行 过 程 中 会 频繁 地 运行 小 范围 
的 循环 代码 ,而 这 些 循环 又 会 对 数据 存 以 器 中 的 局 部 区 域 反 复 访问 。 

对 存储 器 中 相同 或 邻近 的 数据 和 代码 反复 使 用 ,是 cache 改善 性 能 的 主要 原因 。 处 理 
右 在 第 一 次 访问 存储 器 时 ,将 相关 数据 和 程序 加 载 到 cache 中 ,使 随后 的 访问 速度 大 大 提 
高 。 对 高 速 cache 的 重复 访问 改善 了 系统 的 性 能 。 

cache 同时 使 用 了 时 间 和 空间 的 局 部 性 原理 。 如 果 对 存储 器 的 访问 受 时 间 影 响 , 在 时 
间 上 有 连续 性 , 则 这 种 时 间 上 密集 的 访问 被 称 为 时 间 局 部 性 访问 ;如 果 多 次 对 存储 器 访问 的 
地 址 相近 , 则 这 种 空间 上 邻近 的 访问 被 称 作 空间 局 部 性 访问 。 





12.2 cache 结构 





带 有 cache 的 ARM 内 核 采用 了 两 种 总 线 结构 : 冯 ， 诺 依 曼 结 构 和 哈佛 结构 。 这 两 种 
总 线 结构 的 区 别 在 于 ,是 否 在 内 核 与 主 存 之 间 将 指令 和 数据 道道 分 离 。 分 别 有 不 同 的 cache 
设计 来 支持 这 两 种 结构 。 

在 使 用 汉 。 诺 依 曼 结 构 的 处 理 锅 内 核 中 ,只 有 一 个 数据 和 指令 公用 的 cache。 这 种 类 型 
的 cache 被 称 作 统 一 cache RAA cache) , 它 可 以 存储 指令 和 数据 。 

哈佛 结构 将 指令 总 线 和 数据 总 线 分 离 ,以 改善 系统 的 综合 性 能 ,但 是 支持 两 种 总 线 需 要 
两 种 cache。 所 以 在 使 用 险 佛 结构 的 处 理 器 核 中 ,存在 两 种 cache 指令 cache(I-cache) FUSE 
据 cache(D-cache) 。 这 种 类 型 的 cache ЖЕ Ж cache(split cache), ТЕЛУ cache 中 , 指 
A BUE BE TE TRA cache 中 ,而 数值 被 存 情 在 数据 cache 中 。 

可 以 通过 图 12. 4 中 的 统一 cache 来 了 解 cache 的 基本 结构 。caehe 的 两 个 主要 组 成 部 
ЛЕ cache й ЖП cache 0. cache 存储 器 是 一 个 专用 的 存储 内 阵 列 , 其 访问 单元 称 
为 cache ff , cache 控制 器 使 用 处 理 器 在 访问 存储 器 时 所 提供 的 地 址 的 不 身段 ,以 选择 
cache 存储 器 的 不 同 部 分 下 面 将 首先 介绍 cache 存 鱼 器 的 结构 , 接 下 来 介绍 cache 控制 器 
的 一 些 细节 ， 
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图 12.4 拥有 256 行 的 4 KB cache, 每 行 4 个 32 位 字 (word) 


12.2.1 cache 存储 器 的 基本 结构 


图 12. 4 的 右 侧 是 一 个 简单 的 cache 存储 器 。 它 有 3 个 主要 部 分 :目录 存储 段 (directory 
store) ,状态 信息 段 (status information) 和 数据 项 段 (data section) 。 每 一 个 cache 行 都 由 这 
3 部 分 来 表示 。 

cache 必须 知道 cache 存储 器 中 的 每 个 cache 行 所 对 应 于 主 存 中 的 位 置 ,cache 使 用 目 
录 存 储 段 来 记录 每 个 cache 行 是 由 主 存 的 什么 地 方 拷贝 而 来 。 该 目录 项 被 称 作 ”cache 标 
AE" (cache - tag) 。 

同样 ,cache 存储 器 必须 存储 来 自主 存 的 信息 ,这 些 信 息 被 放 在 数据 项 段 里 ( 见 图 12. 4) 。 

cache 的 大 小 是 由 cache 可 以 存储 的 主 存 中 实际 数据 和 代码 的 大 小 决定 的 。 在 计算 
cache 容量 时 ,用 来 存储 cache 标签 和 状态 信息 位 的 那 部 分 cache 存储 器 不 计算 在 内 。 

在 cache 存储 器 中 ,还 有 用 来 记录 状态 信息 的 状态 位 。2 个 常见 的 状态 位 是 有 效 位 
(valid bit) 和 脏 位 (dirty bit). 。 有 效 位 用 来 标记 当前 的 cache 行 是 活动 的 , 即 该 cache 行 中 包 
含 最 初 从 主 存 中 取得 的 数据 ,并 可 以 为 处 理 器 内 核 所 用 。 脏 位 则 用 来 标记 该 cache 行 中 所 
含 的 内 容 与 主 存 中 相应 的 内 容 是 否 一 致 。 在 12. 3. 1 小 节 中 ,将 会 详细 地 解释 脏 位 的 含义 。 
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12.2.2 cache 控制 器 的 基本 操作 


cache 藻 先 属 是 一 种 硬件 , 它 将 主 存 中 的 数据 或 者 代码 自动 拷贝 到 cache 存储 器 中 。 
cache 控制 器 在 不 为 应 用 软件 所 知 的 情况 下 ,自动 完成 搬移 工作 。 所 以 ,同一 个 应 用 软件 不 
用 修改 ,就 可 以 在 有 cache 和 没有 cache 的 系统 中 运行 。 

读 / 写 存储 妖 的 请 求 在 被 传送 到 存 人 情况 控 制 项 之 前 ,会 被 cache 控制 器 截获 ,cache 控制 
器 将 该 请 求 的 地 址 信息 分 成 3 BRA) d EUR (таң field) ARF set index field) MEEK 
5] 24 (data index field) 。3 个 位 域 分 别 见 图 12.4. 

首先 ,控制 甘 通 过 组 索引 域 在 cache 存储 器 中 确定 可 能 包含 所 要 求 的 代码 和 数据 的 
cache 行 的 位 置 , 即 确定 某 一 cache fT. cache 行 中 还 包含 cache 标签 和 状态 位 ,控制 器 就 是 
通过 它们 来 确定 数据 的 实际 存储 位 置 的 。 

接 下 来 ,控制 器 检查 有 效 位 ,以 确定 该 cache 行当 前 是 否 处 于 活动 状态 ,并 且 将 请 求 地 
址 的 标签 域 的 值 与 cache 标签 比较 。 如 果 cache 行当 前 是 活动 的 ,并 且 标 签 域 与 cache 标签 
的 值 也 相同 , 则 cache 命中 (hib 否则 , 称 作 cache 失效 (miss) 。 

在 cache 失效 的 情况 下 ,控制 器 从 主 存 中 持 贝 整个 cache 行 到 cache 存储 器 中 ,为 处 理 
器 核 提 供 相应 的 代码 或 数据 。 这 种 拷贝 整个 cache 行 的 操作 被 称 作 cacjhe £738 Ж (cache line 
fil), 

在 cache 命中 的 情况 下 ,控制 器 直接 从 cache 存储 器 中 为 处 理 器 核 提供 数据 和 代码 。 控 
制 器 使 用 数据 索引 域 , 在 cache 行 中 选择 实际 的 代码 或 数据 ,并 将 其 提供 给 处 理 器 内 核 。 


12.2.3 cache 与 主 存 的 关系 


对 cache 存储 器 的 基本 结构 和 cache 控制 器 的 工作 原理 有 了 一 定 的 了 解 之 后 ,就 可 以 来 
讨论 cache 与 主 存 的 关系 子 。 

图 12.5 显示 了 主 存 中 的 部 分 内 容 是 如 何 被 临时 存放 在 cache 存 情 器 中 的 。 此 图 所 示 
为 最 简单 的 cache E51, —- 8 SEBUM cache, TE— ЕВЕ ЯН cache 中 , 主 存 中 的 每 个 地 址 
都 对 应 cache 存储 器 中 惟一 的 一 行 。 由 于 主 存 的 容量 要 远 远 大 于 cache 存储 器 ,所 以 在 主 存 
中 有 很 多 地 址 被 映射 到 同一 个 cache 行 。 由 图 12, 5 可 以 看 出 这 种 关系 ,所 有 以 0x824 结尾 
的 内 存 地 址 都 映射 在 同一 cache 行 。 | 

图 12. 4 中 介绍 的 地 址 信息 的 3 个 域 :标签 域 .组 索引 域 和 数据 索引 域 ,在 图 12. 5 中 仍 
然 可 以 体现 出 来 。 组 索引 域 (set index) 可 以 确切 地 指出 所 有 以 0x824 结尾 的 内 存 地 址 在 
cache 中 所 惟一 对 应 的 存储 地 址 ;数据 索引 域 可 以 确定 字 , 半 字 或 者 字 节 在 该 cache 行 中 的 
位 置 ,在 本 例 中 是 cache 行 中 的 第 二 个 字 ; 标 签 域 则 用 来 与 cache 行 中 的 cache-tag 相 比 较 。 
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图 12,5 主 存 与 直接 了 肤 射 cache КИИ 


ERAP, cache 中 的 每 一 行 都 对 应 着 100 万 个 内 存 地 址 。 在任 一 给 定时 肇 , 这 些 地 扯 中 只 

有 一 个 地 址 的 内 容 可 以 出 现在 cache 存储 器 中 。 将 主 存 地 址 的 标 答 城 与 cache 行 中 的 cache 

标签 相 比 较 , 可 以 确定 该 cache 行 中 是 存储 了 处 理 器 所 要 访问 的 主 存单 元 数据 ， 还 是 存储 了 
”另外 一 个 地 址 以 0x824 结尾 的 主 存单 元 数据 ， 

在 cache ТҮ ЭЗЕН] ,cache 控制 器 可 以 在 向 cache 中 搬运 数据 的 同时 ,将 数据 传送 到 处 
ЖЕН КН , x CRI EIE ОЕ (data streaming)。 数 据 流 注 允 许 处 理 器 一 边 执 行程 序 ， 
cache 控制 典 一 边 向 相应 cache 行 中 扫 运 剩余 的 数据 和 代码 

如 果 在 某 一 cache 行 中 的 数据 虽然 是 有 效 的 ,但 是 与 之 对 应 的 是 主 存 中 其 它 的 地 址 块 ， 
而 非 处 理 器 所 要 求 的 地 址 ,那么 整个 cache 行 中 内 容 将 被 删除 ,并 被 替换 为 与 处 理 器 内 核 所 
要 求 的 地 址 相对 应 的 cache 行 。 这 种 移动 一 个 有 效 cache 行 的 过 程 , 是 cache 失效 处 理 的 一 
部 分 ,被 称 作 " 昔 换 ”, 即 将 cache 行 中 的 内 容 返 回 到 所 对 应 的 主 存单 元 中 , 留 出 空间 给 需要 
加 载 到 cache 的 新 的 数据 ， 
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直接 映射 cache 是 一 种 简单 的 解决 方法 ,但 这 种 设计 使 每 个 主 存 块 在 cache 中 只 有 一 个 
特定 的 行 可 以 存放 。 如 果 程 序 同时 用 到 对 应 于 cache 则 一 行 的 2 个 主 存 块 ,那么 就 会 发 生 
冲突 ,冲突 的 结果 就 是 导致 cache 行 的 频繁 置换 。 这 就 是 关于 直接 映射 cache АЧАТ 
Cthrashing? 问题 一 一 cache 存储 器 中 同一 -位 置 的 软件 冲突 . 

图 12. 6 所 示 为 一 个 简单 的 软件 循环 在 cache 中 频繁 曾 换 的 过 程 。 该 程序 在 一 个 do 
while 德 环 中 反复 调用 2 个 子 程序 ,每 个 子 程序 都 拥有 相同 的 组 索引 域 地 址 ,所 以 这 2 个 子 
过 程 ( 程 序 ) 在 主 存 中 的 物理 地 址 会 映射 到 cache 中 相同 的 行 。 当 第 一 次 执行 该 循环 并 执行 
到 子 程序 A 时 ,A 被 调 人 到 cache 行 中 。 接 下 来 当 执 行 到 子 程序 B 时 ,A 所 在 的 cache 行 被 
替换 ,同时 B 被 放 人 该 行 ,并 开始 执行 。 当 第 二 次 循环 执行 到 A 时 ,A XH B 从 cache 419 
换 出 来 RE BERE ARREA, EAM cache 失效 导致 cache 控制 器 连续 不 断 地 将 当前 
不 用 的 过 程 置换 出 cache, 这 就 是 cache Ў, 
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图 12.6 cache Mi (thrashing) :在 直接 映射 caehe 中 2 个 函数 相互 普 换 
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12.2.4 组 相 联 


某 些 cache 使 用 其 它 的 设计 方式 ,可 以 减少 cache HARARE 12.7)。 这 种 设计 
改变 了 cache 的 构造 :将 cache 存储 器 分 成 了 一 些 相同 容量 的 小 单元 , 称 作 辟 (way) 。 
图 12.7 所 示 仍 旧 是 一 个 4 KB 的 cache, 但 是 与 前 面 所 讲 的 cache 不 同 的 是 ,一 个 组 索引 域 
XE EAS cache 行 ; 即 在 每 一 路 里 都 有 一 个 cache 行 与 之 对 应 。 前 面 所 讲 的 4 KB 容量 的 
cache 分 为 256 行 ,现在 把 cache 分 成 4 路 ,每 路 有 64 个 cache 行 。 组 索引 域 相 同和 的 4 个 
cache 行 被 称 作 处 于 同一 个 组 (set) 里 ,这 也 是 组 索引 的 命名 的 由 来 。 

拥有 相同 组 索引 的 cache FAAAM H (set associative) 。 主 存 中 的 数据 或 者 代码 块 
可 以 在 不 影响 程序 执行 的 情况 下 被 分 配 到 组 相 联 的 任意 一 路 中 。 换 和 句 话说 ,将 数据 或 者 代 
BAA cache 行 中 的 操作 不 会 影响 程序 的 执行 。 当 主 存 中 2 个 顺序 的 块 被 置换 到 cache 中 
时 ,可 以 被 放 在 同一 路 的 连续 cache 行 中 ,也 可 以 被 放 在 不 同 路 中 。 需 要 注意 的 是 , 主 存 中 
特定 位 置 的 乱码 或 者 数据 被 读 信 到 cache 时 ,可 以 被 存放 在 同一 个 组 的 任意 cache 行 中 。 在 
cache 的 同一 个 组 当中 ,数据 放置 的 位 置 具 有 排他 性 ,可 以 防止 同样 的 数据 被 重复 放 在 一 个 
组 的 不 同 的 cache 行 。 

在 4 个 way 的 组 相 联 cache 中 , 主 存 到 cache 的 映射 与 以 前 有 所 不 同 ( 如 图 12. 0, + 
存 中 的 一 个 地 址 现在 可 以 上 映射 到 cache 中 的 上 个 不 同 地 址 虽然 图 12.5 与 图 12.8 所 示 都 
E 4 КВ 的 eache, 但 它们 当中 还 是 有 很 多 值得 注意 的 差异 。 

在 图 12. 8 rb tag 域 比 以 前 多 了 2 位 ,而 同时 组 索引 域 比 以 前 少 了 2 位 。 这 意味 着 主 存 
中 的 400 万 地 址 映射 到 cache 一 个 组 中 的 4 个 cache 行 中 ,而 不 是 100 万 主 存 地 址 映射 到 ~- 
个 cache f Ж, | 

现在 , 主 存 映 射 到 cache 中 的 大 小 是 1 KB 而 不 是 4 КВ, RARER ЕНЕН ЕПН] 
一 组 的 cache 行 的 可 能 性 比 以 前 增加 了 4 倍 , 同 时 一 个 cache 行 被 蔡 换 的 概率 也 减 小 为 原来 
В 1/4, 

如 果 图 12. 6 中 的 示例 程序 代码 在 图 12. 8 中 的 4 个 way 的 组 相 联 cache 中 运行 ,那么 
cache 失效 的 可 能 性 会 大 大 降低 , 子 程序 A、 子 程序 B 和 数据 组 会 分 别 被 存储 在 一 个 组 的 4 
个 可 能 位 置 中 的 一 个 。 当 然 , 这 是 假设 每 个 子 程序 和 数据 组 的 大 小 要 小 于 从 主 存 中 映射 过 
来 的 1 KB 空间。 


提高 相 联 度 


随 着 cache 控制 器 的 相 联 度 提 高 ,冲突 的 可 能 性 减 小 了 。 理 想 的 目标 是 ,尽量 提高 组 相 
联 程度 ,使 主 存 地 址 能 够 映射 到 任意 cache 行 。 这 样 的 cache BUONA cache 。 然 而 ， 
FEE TE HEISE PAIRE ,与 之 相 匹配 的 硬件 的 复杂 程度 也 在 提高 。 硬 件 设计 者 提高 cache 相 联 
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度 的 一 种 方法 就 是 使 用 内 萄 录 龙 存储 多 CAM (Content Addressable Memory) 。 

CAM 使 用 一 组 比较 器 ,以 比较 输入 的 标签 地 址 和 存储 在 每 一 个 有 效 cache 行 中 的 
cache-tag, CAM 采用 了 与 RAM 相反 的 工作 方式 ;RAM 是 得 到 一 个 地 址 后 再 给 出 数据 ; 
而 CAM 则 是 在 检测 到 给 定 的 数据 值 在 存储 器 中 后 ,再 给 出 该 数据 的 地 址 。 使 用 CAM Л 
许 同 时 比较 更 多 的 cache-tag, 从 而 增加 了 可 以 包含 在 一 个 组 中 的 cache 行 数 。 

在 ARM920T 和 ARM940T 处 理 器 核 中 , ARM 使 用 了 CAM 来 定位 cache-tag, 
ARM920T 和 ARM940T 中 的 cache 是 64 路 组 相 联 的 。 图 12.9 所 示 为 ARM940T 的 
cache 结构 图 。cache 控制 器 把 地 址 标签 (address tag) EX CAM 的 输入 , 它 的 输出 选择 了 
包含 有 效 cache 行 的 路 (way) 。 
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图 12.9 ARM940T 一 一 使 用 CAM 的 4 KB 64 路 组 相 联 D-cache 


访问 地 址 的 tag 部 分 被 作为 4 个 CAM 的 输入 ,输入 标签 同时 与 存储 在 64 路 中 的 所 有 
cache 标签 相 比较 。 如 果 有 一 个 匹配 ,那么 数据 就 由 cache 存储 器 提供 ;如 果 没有 匹配 ,存储 
器 控制 器 就 会 产生 一 个 失效 (miss) 信 号。 

控制 器 使 用 组 索引 位 (set index) 来 选择 4 个 CAM 中 的 一 个 。 被 选中 的 CAM 会 在 
cache 存储 器 中 选择 一 个 cache 行 , 该 地 址 的 数据 索引 部 分 (data index) 在 该 cache 行 中 选择 











12 mE f fb SE cache 





出 所 需要 的 字 SEEEST. 


12.2.5 写 缓 冲 器 


写 缓冲 器 是 一 个 容量 非常 小 的 高 速 FIFO 存储 缓冲 器 ,用 来 临时 存放 处 理 器 将 要 写 人 
到 主 存 中 的 数据 ， 在 没有 写 缓 冲 器 的 系统 中 , 处 理 回 直接 写 数 据 到 主 存 中 。 在 带 有 写 角 冲 
器 的 系统 中 ;数据 先 高 速写 人 FIEFO, 然 后 再 写 人 低速 的 主 存 中 。 写 缓冲 办 缩短 了 二 小 块 序 
列 数据 到 主 存 时 的 处 理 占 时 间 。 写 缓 神器 中 的 FIFO 存储 器 在 存储 层次 中 ,与 Ll cache 处 
于 相同 的 层次 ( 见 图 12. 1), 

写 缓 冲 器 的 效率 依赖 于 主 存 写 的 次 数 与 执行 指令 数 的 比例 .在 给 定 的 时 间 间 肾 中 ,者 
主 存 写 的 次 数 比较 少 ,或 者 写 操作 与 其 它 操 作 指 令 有 足够 的 问 隔 , 那 么 写 缓 冲 器 一 般 就 不 会 
满 。 在 写 缓冲 器 不 满 的 情况 下 ,运行 程序 可 以 使 用 寄存 哈 操作 来 连续 执行 超出 cache 的 访 
问 。 此 时 ,使 用 cache 进行 读 / 写 ,使 用 写 缓冲 器 来 临时 存放 被 替换 出 的 cache 行内 容 , 并 马 
上 被 写 人 主 存 。 

写 缓 冲 器 同时 还 改善 了 cache 的 性 能 ,这 体现 在 cache 行 被 替换 时 。 当 cache 控制 器 要 
替换 出 一 个 脏 的 cache 行 时 , 它 只 将 该 cache 行 放 和信 写 缓 冲 器 中 ,而 不 写 人 和 主 存 。 这 样 ,可 以 
更 快速 填充 新 的 cache 行 数据 ,处 理 髓 就 可 以 继续 从 cache 存储 器 中 读 / 写 数据 。 

写 缓 冲 器 中 的 数据 在 没有 被 写 人 主 存 之 前 ,是 不 能 被 读 取 的 。 同 样 ,被 替换 的 cache 行 
在 写 缓冲 器 中 时 也 不 能 进行 读 操作 。 这 也 是 为 什么 写 绥 冲 器 的 FIFO 深度 通常 比较 小 的 原 
国之 一 ,一 般 只 有 几 个 cache FARE., 

有 些 写 缓冲 器 并 不 是 严格 的 FIFO 缓冲 器 。 例 如 , ARMIO Я] Ж PE 2 Ccoales- 
cing) 一 一 把 写 操作 合并 到 一 个 单一 的 cache 行 。 也 就 是 说 , 写 缓冲 器 会 把 新 的 数值 (如 果 它 
们 表示 的 是 主 存 中 同一 个 数据 块 ) 合 并 到 一 个 在 写 缓冲 器 中 已 存在 的 cache £j. EZ XX 
称 作 写 合并 , 写 联 合 或 写 结合 等 ， 


12.2.6 cache 效率 的 衡量 


有 2 个 性 能 指标 可 以 衡量 一 个 程序 的 cache 效率 ;cache 命中 率 (hit rate) #1 cache E Ж 


率 (miss rate)。 在 给 定 的 时 间 闸 隔 内 ,cache 命中 的 次 数 与 总 的 存储 器 请 求 次 数 的 比值 被 称 
Р 。 命 中 率 可 以 用 下 面 的 百分数 来 表示 ; 
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请 求 次 数 所 得 的 百分数 。 失 效率 与 命中 率 之 和 等 于 100. 

命中 率 和 失效 率 可 以 衡量 数据 的 读 / 写 ,或 者 同时 衡量 读 、 写 两 者 的 效率 。 也 就 是 说 ,这 
2 个 性 能 指标 可 以 从 几 个 方面 来 描述 系统 的 性 能 情况 。 例 如 :可 以 计算 读数 据 的 命中 率 、 写 
数据 的 命中 率 , 或 者 其 它 方面 操作 的 命中 率 和 失效 率 等 等 。 

另外 两 个 衡量 cache 性 能 的 指标 是 命中 肝癌 (hit time) UE 4 7T fif (miss penalty) 。 命 
中 时 间 是 指 处 理 器 访问 cache 中 数据 时 所 需要 的 时 间 。 失 效 开销 是 指 处 理 器 从 主 存 中 装载 
一 个 cache 行 数据 到 cache 所 需要 的 时 间 。 





12.3 cache 策略 


opino sjedoje^eq uJeisAS WAY 


有 3 种 可 以 决定 cache 操作 的 策略 : 写 策略 、 替 换 策 略 及 分 配 策略 。cache 的 写 策略 决 
定 了 处 理 器 执行 写 操作 时 数据 存放 的 位 置 。 蔡 换 策 略 在 cache 失效 的 情况 下 ,决定 选择 被 
替换 出 主 存 的 cache 行 。 分 配 策略 决定 cache 控制 器 在 何 时 将 要 分 配 cache 17. 


12.3.1 БЖ —А БЖ 665) 


处 理 器 核 向 存储 器 写 数据 时 ,cache 控制 器 可 以 有 2 种 可 选择 的 写 策略 。 它 可 以 同时 向 
cache 行 和 相应 的 主 存 位 置 中 写 人 数据 ,将 存储 在 2 个 位 置 上 的 数据 一 起 更 新 ,这 种 做 法 被 
WORSE SE Critethrougl) 。 另 外 , 它 也 可 以 只 把 数据 写 人 相应 的 cache 行 , 而 不 写 人 主 存 ， 
只 有 当 相 应 cache 行 被 替换 或 清理 cache 行 时 , 才 被 写 人 主 存 ,这 种 做 法 被 称 为 铝 写 涛 
(writeback) 。 


如 果 cache 控制 器 使 用 直 写 策略 ,那么 处 理 器 核 写 cache 命中 时 ,将 同时 修改 cache 和 
主 存 中 的 内 容 , 以 确保 cache 和 主 存 数据 的 一 致 性 。 在 这 种 策略 下 ,处 理 器 核 在 每 次 写 
cache 时 也 要 写 相 应 的 主 存单 元 。 由 于 要 访问 主 存 , 直 写法 的 速度 比 回 写法 要 慢 一 些 。 


如 果 cache 控制 器 使 用 回 写 策略 ,那么 处 理 器 核 写 cache 命中 时 ,只 向 cache 存储 器 写 
数据 ,而 不 立即 写 人 主 存 。 这 样 , 主 存 块 与 相应 的 cache 行 数 据 有 可 能 不 一 致 。cache 中 的 
数据 是 最 新 的 ,而 主 存 中 的 数据 可 能 是 较 早 的 ,没有 被 更 新 过 的 。 

配置 成 回 写法 的 cache 要 使 用 到 cache 行 的 状态 信息 块 中 的 一 个 或 多 个 脏 位 (dirty 
bit) 。 当 回 写 cache 控制 器 向 cache 存储 器 中 某 一 行 写 人 数据 时 , 它 会 将 脏 位 设置 为 1。 如 
果 控 制 器 内 核 此 后 访问 该 cache 行 ,那么 通过 脏 位 的 状态 就 可 以 知道 该 cache 行 中 含有 主 存 
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中 没有 的 数据 。 如 果 cache 控制 器 要 将 一 个 性 位 被 冒 位 的 cache ТҮ НА Hi cache 存储 器 , 那 
么 该 cache 行 数据 会 自动 被 写 到 主 存单 元 中 去 。 控 制 器 通过 这 种 方式 来 防止 只 存在 于 
cache 中 而 主 存 中 没有 的 重要 信息 的 丢失 。 

当 一 个 程序 频繁 使 用 某 些 临时 的 局 部 变量 时 ,由 于 这 些 变量 是 临时 的 ,所 以 根本 用 不 着 
被 号 到 主 存 中 去 。 此 时 回 写 法 cache РЁ cache, RRB: 当 寄 存 朵 文件 没有 足够 的 寄 
存 器 来 存放 临时 局 部 变量 时 ,就 会 导致 部 分 变量 谥 出 到 一 个 cache 堆栈 中 ,这 些 临时 变量 就 
不 需要 写 人 主 存 。 


12.3.2 cache 行 替换 策略 


当 一 个 cache 访问 失效 时 ,cache 控制 器 必须 从 当前 有 效 的 组 中 选择 一 个 cache 行 来 存 
人 情 从 主 存 中 取得 的 新 信息 。 和 被 选中 替换 的 cache ТВ УЕ (ист). МНЕ 
包含 有 效 的 脏 数据 ,那么 在 该 cache 行 被 写 人 新 数据 之 前 ,控制 器 必须 把 该 行 中 的 数据 写 到 
主 存 。 选 择 和 替换 丢弃 cache {т КРЕ eviction) 。 

cache 控制 器 选择 下 一 个 竺 弃 cache 行 的 策略 被 称 为 替换 策略 。cache 替换 策略 从 当前 
有 效 的 相 联 组 中 选择 一 个 cache 行 , 即 它 选择 一 路 (way) 用 于 下 一 次 cache 行 替换 。 总 的 来 
说 ,组 索引 域 在 各 个 way 中 选择 可 用 的 一 组 cache 行 ;而 替换 策略 决定 在 该 组 中 的 哪 一 个 
cache 行 被 新 的 数据 所 替换 ， 

带 cache 的 ARM 核 支 持 两 种 替换 策略 : 伪 随 机 替换 法 和 轮转 法 ， 


° 轮转 法 又 叫 循环 赫 换 ,这 种 方法 只 是 简单 地 将 当前 分 配 cache 00 F “THESE 
换 的 行 。 它 所 采用 的 选择 算法 使 用 了 和 连续 加 1 的 丢弃 计数 器 ,该 计数 器 在 每 一 次 
cache 控制 器 分 本 新 的 cache 行 时 都 会 自动 加 1。 当 丢弃 计数 办 计数 达到 最 大 值 时 ， 
就 被 复位 成 预先 定义 好 的 一 个 基 什 ， | 

伪 随 机 营 换 法 从 特定 的 位 置 上 随机 地 选 出 一 行将 换 出 去 。 该 算法 使 用 了 非 连 续 增 
加 的 丢弃 计数 器 ,控制 器 随 宙 产 生 一 个 增加 值 , 并 将 该 增加 信 加 到 丢弃 计数 器 上 ， 
同样 , 当 丢弃 计数 器 计数 达到 最 大 值 时 ,会 被 复位 成 预先 定义 好 的 一 个 基 值 ， 


大 多 数 ARM 核 都 支持 这 两 种 替换 策略 ( 表 12, 1 详尽 列 出 了 各 种 ARM 核 及 其 所 支持 
的 策略 )。 相 比 之 下 ,轮转 法 替换 策略 有 更 好 的 可 预测 性 ,容易 预测 最 坏 情 况 下 cache 的 性 
能 ,这 在 嵌入 式 系统 中 是 很 必要 的 ;然而 ,轮转 法 鞠 换 策略 在 存储 器 访问 发 生 很 小 的 变化 时 ， 
有 可 能 造成 cache 性 能 有 较 大 的 变化 。 可 议 从 例 12. 1 看 出 这 种 性 能 上 的 改变 ， 
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P 表 12.1 б cache 的 ARM 核 所 使 用 的 策略 
< 内 A Zu trig 分 配 策略 
а ARM720T 直 写 法 Шш 机 读 分 配 
3 ARMIAUT uu M 机 RIN 
$ АКМ920Т 直 写 法 , 回 当 法 随机 ,轮转 法 读 分 配 
Ф ARMY40T 直 写 法 , 回 写法 随 机 读 分 配 
9 ARM926EJS 直 写 法 , 回 写法 随机 ,轮转 法 ERA 
ә ARM946E 直 写 法 , 回 写法 随机 ,轮转 法 жаю 
Y ARM10202E 直 写 法 , 回 写 法 随机 ,轮转 法 ЛЕ 
e ARM1026EJS 直 写 法 , 回 写 法 随机 ,轮转 法 ERE 
Intel StrongARM 间 写 法 轮转 法 ESAE 
Intel XScale BS, P| S zk FE 读 、 写 分 配 


[f] 12,1] 说 明 分 别 使 用 轮转 和 伪 随 机 替换 策略 运行 一 个 程序 所 耗费 的 时 间 。 

测试 程序 cache_RRtest 使 用 C FEX PE header, h 中 的 时 钟 函数 来 计算 时 间 。 程 序 先 使 
用 轮转 策略 进行 时 间 测 试 , 然 后 使 用 随机 策略 进行 了 相册 的 测试 。 

测试 程序 readSet 是 基于 ARM940T 的 。 该 程序 使 用 轮转 替换 策略 ,并 故意 显示 了 一 
种 cache 性 能 的 最 坏 的 帘 变 。 


H include —stdio. h> 
H include < time. h> 
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void cache FRtest(int tines, int numset) 


| 


clock t count; 


printf("Round Robin test size - % т\п", numset); 

enableRoundRobin() ; 

cleanFlushCache(); 

count = clock(); 

teadSet( times,numset); 

count = clock() - count; 

printf("Roeund Robin enabled = &.2f зесогкіз\ г\п", 
(float)count/CLOCKS PER SEC), 

enableRandon(); 
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cleanFlushCache(?); 

count = clock(); 

readSet(times, numset); 

counts clock() — count; 

printf("Random enabled = * .2f secondsVrinVrAn" , 
(float)count/CLOCRS PER, SEC); 


} 


int readSet( int times, int numset) 
{ 
int setcount, value; 
volatile int * newstart; 
volatile int * start = (int * )0х20000; 


. Asin 
{ 
timeslo5pD; 
HOV newstart, start 
ROV setcount, numset 
setloap; 
LDR value, [newstart, #0]; 
ADD newstart, newstart, # 0х40; 
SUBS setcount, setcount, #1; 
BNE setloop, 
SUBS times, times, #1; 
PNE timesloop; 
) 


return value; 


} 


readSet 例 程 用 来 填充 cache 的 一 个 组 (set)， ATARA 2 个 参数 :第 1 个 times, 运 行 
济 试 循环 的 次 数 ,这 个 值 增加 了 运行 测试 所 花费 的 时 间 ; 第 2 个 numset, 即 在 一 个 组 (set) 中 
需要 读 取 的 数据 的 个 数 , 它 决定 程序 要 读 取 多 少 cache 行 到 同一 个 组 中 。 通过 一 个 循环 向 
cache 的 组 中 填写 数据 ,该 循环 使 用 LDR 指令 在 主 存 的 某 个 位 置 上 读 取 一 个 数值 , 并且 每 
循环 一 次 将 地 址 指针 加 上 16 个 字 ( 即 64 字 节 )。 在 ARM940T 中 ,设置 numset 的 值 为 64， 
可 以 填 满 一 个 组 的 所 有 宫 用 的 cache 行 。ARM940T 的 一 路 (way) 有 16 个 字 , 每 组 有 64 个 


cache 行 。 


以 下 代码 使 用 2 个 不 同 的 组 大 小 进行 了 2 次 调用 ,以 测试 轮转 替换 策略 。 第 1 次 用 64 







SƏUSDO 21 


403 








әртпо stedord uleijsAS WAY 


404 


ARM RAR RAHA 





个 条 日 (entries) 充 填 一 个 cache 8:28 2 I Hj 65 8 Н Centries) JE £8 — ^ cache 组 ， 


unsighned int times = 0х10000; 


unsighned int numset = 64; 


cache RRtest (times, numset),; 
numset - 65; 


cache RRtest ( times,numset), 


下 面 是 2 个 测试 运行 的 输出 结果 。 测试 程序 在 ARMO40T 处 理 器 核 .ARM ADS 1.2 
ARMulator 环境 了 运行。 处理 器 核 的 时 钟 为 50 MHz, 非 顺序 访问 的 存储 器 读 时 间 为 
100 ns* 上 顺序 访问 为 50 ns。 需 要 注意 的 是 使 用 轮转 策略 读 取 65 个 组 数值 时 的 时 间 变 化 。 

Round Robin test size = 64 

Round Robin enabled = 0.51 seconds 

Radom enabled = 0.51 seconds 

Round Robin test size = 65 

Round Robin enabled = 2.56 seconds 

Radom enabled = — 0.58 seconds 


ХЕЕЕ RR B| T EEEE T FE D PELLE ЖЕ 6 35 BR ВКА 
之 处 。 

述 有 一 种 替换 策略 是 最 近景 少 使 用 策略 LRU (Least Recently Used), BARR 
cache 行 的 使 用 情况 ,将 近期 内 最 长 时 间 示 被 访问 过 的 cache 行 替换 出 cache, 

带 cache 的 ARM 核 不 支持 最 近 最 少 使 用 策略 ,但 是 有 些 ARM 的 半导体 合作 伙伴 在 其 
制造 的 芯片 中 将 自己 的 cache 加 到 不 带 cache 的 ARM 核 中 。 所 以 有 些 基 于 ARM 的 产品 
支持 最 近 最 少 使 用 策略 ， 


12.3,3 cache 失效 时 的 分 配 策略 


在 cache 失效 发 生 时 ,ARM 的 cache 可 以 采取 两 种 策略 来 分 配 cache 行 ,第 一 种 叫做 读 
操作 分 配 (read-allocate) 策 略 ;第 二 种 叫 f BE / TS MEAE BO Cread-write-allocate) $8 RE , 

如 果 cache 未 命中 ,那么 对 于 读 操 作 分 配 策略 ,只 有 进行 存储 器 读 操作 时 , 才 分 配 cache 
行 。 如 果 被 蔡 换 的 cache 行 包含 有 效 数据 ,那么 在 该 行 被 新 的 数据 填充 之 前 , 槛 先 把 其 原来 
的 内 容 写 入 主 存 中 去 ， 

采用 攻克 人 攻 分 而 凌 酌 时 ,存储 器 写 操作 并 不 会 更 新 cache 存储 关中 的 内 容 , 除 非 相 关 的 
cache 行 怡 好 是 前 一 个 主 存 读 操作 刚刚 分 配 的 。 如 果 这 个 cache 行 中 包含 有 效 数据 ,那么 在 
采用 直 写 策略 时 , 写 操作 更 新 cache 的 同时 ,还 会 更 新 主 存 中 的 相应 内 容 。 如 果 写 操作 的 对 





象 不 在 cache 中 ,那么 写 操作 只 更 新 主 他 中 的 相应 和 内容。 
RHE ЕРАТА И, REPE ARES Pb ТЕ CUR RC ET 6k ERE C fE cache 未 命中 
时 都 将 分 配 cache 行 。 对 于 主 存 的 任何 写 操 作 , 如果 操作 对 象 不 在 cache 中 ,那么 cache 18 
制 瞧 也 会 分 配 - -个 新 的 cache 行 ,并 把 主 存 中 的 相应 内 容 填充 天 该 cache 行 。 对 于 存储 器 读 
操作 cache 控制 器 运用 读 操 作 分 本 策略 。 
当 内 核 进行 数据 写 操作 时 ,如 果 cache 未 命中 ,那么 cache 控制 器 将 会 分 配 一 个 cache 
x 行 。 如 果 被 替换 出 的 cache 行 中 包含 有 效 数据 (valid data) ,那么 在 主 存 将 新 的 内 容 放 人 该 
cache 行 之 前 ,控制 器 会 将 该 行 的 内 容 先 写 人 主 存 。 如 果 该 行 的 数据 无 效 , 那 么 它 将 直接 被 
主 存 中 的 新 数据 覆盖 ， 分 配 的 cache 行 被 填充 后 ,控制 器 才 将 内 核 数 据 写 到 该 cache 行 的 相 
关 位 置 。 对 于 直 写 cache ,数据 将 会 同时 被 写 人 到 主 存 中 ,* 
ARM7 ,ARM9 和 ARMIO 的 内 核 在 cache 失效 时 使 用 读 操 作 分 配 策 略 , Intel XScale 
在 cache 失效 时 可 以 同时 支持 读 操 作 分 配 和 写 操作 分 配 策略 。 表 12. 1 列 出 了 各 种 cache Ж 
所 文 持 的 各 种 策略 ， 


12.4 协 处 理 器 15 5 cache 





HAP ЯР 15(CP15? 的 一 些 寄存 器 是 专门 用 来 配置 和 控制 带 cache 的 ARM 内 核 的 。 
表 12. 2 列 出 了 控制 cache 配置 的 协 处 理 器 15 寄存 器 、CP15 的 主 寄存 器 ст co 控制 着 
cache 的 设置 和 操作 。 辅 寄存 大 CP15;c? 是 只 写 的 ,控制 清除 或 清理 сасһе;,СР15;с9 定义 
将 被 普 换 的 丢弃 者 (victim) 指针 的 基地 址 ,该 基地 址 决定 了 锁定 在 cache 中 的 代码 和 数据 的 
行 数 。 后 续 章节 中 ,将 会 详细 讨论 有 关 命 令 。 有 关 协 处 理 器 15 的 命令 和 句法 ,可 参 
见 3.5.2 小 节 。 

还 有 其 它 一 些 影响 cache 操作 的 CP15 寄存 器 ,这 些 寄存 器 的 定义 依赖 于 内 核 。 有 关 这 
些 寄 存 器 的 内 容 将 在 第 13 章 的 13. 2. 3 小 节 和 13,2, 4 小 节 的 MPU E) e DEUS 14 ë 
的 14.3.6 小 节 的 MMU 初始 化 中 介绍 ， 

在 接 下 来 的 儿 节 中 ,将 使 用 表 12. 2 中 列 出 的 CP15 寄存 器 编写 清理 和 清除 cache 的 示 
BRUT ,并 在 cache 中 锁定 代码 和 数据 。 控 制 系统 通常 调用 这 些 子 程序 作为 存储 管理 的 -- 
部 分 。 


* RESET cache fi. MRAR HHE, cache 控制 器 也 先 要 把 主 存 的 相关 内 容 揽 制 到 所 分 配 的 cache 行 ,内 核 
数据 才能 可 入 该 cache 行 中 。 一 -- 译 者 注 
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12.2 配置 和 控制 cache 操作 的 协 处 理 器 15 rfe s 





LEE FRE IS наба #1 S COpcede)2 
清理 和 清除 cache сї са,е6,с7.с10,с13,14 0,1,2 

HEE H td c? cid 4 

cache д c9 eg 0,1 

Ap HA с15 е0 0 





12.5 清除 和 清理 cache 





ARM ИЖИ (Hush) RE (clean) 表示 对 cache 的 两 种 基本 操作 ， 

ER cache 的 意思 是 清除 cache 中 存 鱼 的 全 部 数据 。 对 处 理 霜 而 言 ,清除 操作 只 要 清 零 
相应 cache 行 的 有 效 位 即 可 。 当 存储 器 配置 上 有 变化 时 ,整体 或 部 分 cache 可 能 需要 进行 淳 
驳 操 作 。 有 时 也 用 术语 芒 疼 (invafiaatey 来 蔡 代 术语 “ 浒 答 *。 然 而 ,对 于 采用 回 写 策略 的 D 
cache, 就 需要 使用 注 理 (clean) 操作 。* 

RE cache 的 意思 是 把 脏 的 ( 即 被 改写 过 的 )cache 行 强制 写 到 主 存 , 并 把 cache 行 中 的 
脏 位 (污染 位 ) 清 零 。 游 屠 cache 可 以 重建 cache 与 主 存 之 间 的 一 致 性 , 它 只 用 在 使 用 回 写 策 
略 的 Deache E. 

改变 系统 的 存储 喘 配 置 可 能 需要 执行 清除 和 清理 cache 的 操作 。 沪 问 权 限 cache 和 组 
冲 策略 的 变化 或 者 重新 映射 虚拟 地 址 等 操作 都 沉 要 清理 或 清除 cache, 

在 分 离 cache 中 执行 自 网 改 代码 之 前 ,cache 也 需要 执行 清理 和 清除 操作 。 自 修改 代码 
包括 将 代码 篇 音 地 从 一 个 地 方 搁 风 到 另 一 个 地 方 ，。 清理 和 清除 操作 是 由 两 种 可 能 的 情况 引 
起 的 :第 一 ,自修 改 代码 可 能 被 承载 在 D-cache 中 ,因此 ,不 可 能 作为 一 条 指令 从 主 在 中 进行 
加 载 ;第 二 ,1-cache 中 现存 的 指令 可 能 会 屏 项 写 到 主 存 中 的 新 指令 。 

ЖЖ cache 使 用 回 写 策 略 并 且 自 修改 代码 被 写 入 主 存 中 , 奢 么 第 一 步 就 是 将 指令 以 数 
据 块 的 形式 写 到 主 存 中 的 某 处 ; 箭 后 ,程序 跑 转 到 主 存 中 ,以 指令 流 的 形式 从 主 存 中 的 该 处 
开始 执行 。 其 中 ,当代 码 作 为 数据 写 入 到 主 存 中 时 ,如 果 cache 存储 器 中 代表 自修 改 代码 被 
写 入 的 主 存 位 置 的 cache 行 有 效 , 那 么 代码 有 可 能 会 被 宇和 人 到 cache 中 (没有 写 人 主 存 }。 这 
E cache 行 会 被 拷贝 到 DD-cache, 而 不 是 被 撞 贝 到 主 存 ， 如 果 发 生 了 这 种 情况 ,那么 当 程 序 


跳 转 到 自修 改 代码 所 在 地 方 ( 主 存 某 处 ) 时 ,就 会 执行 原来 数据 表示 的 代码 ,因为 自 修改 代码 


` 这 里 没有 把 “flush* 译 成 “出 新 ”因为 “刷新 -- 词 有 新 内 容重 新 填 人 的 意思 ，_ AKR 
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此 时 实际 上 还 在 D-cache 中 。 为 了 防止 这 种 情 帝 发生, 可 以 进行 D cache 的 清理 操作 ,把 指 
令 代 码 强 制作 为 数据 存 到 主 存 中 ,从 而 这 些 数据 就 可 以 作为 指令 流 从 主 存 中 被 读 取 出 来 。 
[cache 被 清理 后 ,新 的 指令 就 被 写 人 划 主 存 中 ,但 是 ,1-cache 中 可 能 会 有 有 效 cache 
行 存储 新 数据 5 代码) 地 十 对 应 的 指令 。 接 下 来 ,在 新 代码 所 在 的 地 址 读 取 指 令 时 ,仍然 会 得 
到 I-cache 中 的 老 代 码 , 而 不 是 主 存 中 的 新 代码 ， 清 除 I-cache 可 以 防止 这 种 情况 的 发 生 。 


12,5.1 清除 cache 


清除 cache, 即使 cache 中 的 内 容 无 效 。 如 果 cache 使 用 回 写 策略 ,那么 在 清除 之 前 应 该 
清理 cache, 以 防止 由 于 清除 操作 使 数据 丢失 。 

有 3 个 CP15:e7 命令 可 以 在 cache 中 执行 清除 操作 :第 1 个 清除 整个 cache; Ж 2 个 只 
清除 I-cache; 第 3 个 只 清除 Decaehe。 这 些 命令 以 及 支持 它们 的 内 核 见 表 12. 3。 对 于 这 3 
个 MCR 指令 ,外 理 器 内 核 寄存 器 Rd БЕЗЕ, 

312.3 WM cache 的 CP15;e7;,Cm G $ 


£ + MCR 指令 支持 的 内 核 





ARM?20T, ARM320T, ARM922T, ARMS26EJ-S 


cache МСЕ p15,0. Rd, c? ,c?,0 
HE Р ARM1022E, ARMIQO26EJ-S. Strong ARM, XScale 


ARM920T. ARM922T, ARM928EJ-S, ARMHOT, 
消 队 数 据 cache МСК p15,0,Rd.c7,c6,0 АЕМ946Е-5, ARMIO22E, ARMIO26EJ-S 
StrongARM, X Scale 


ARMS20T, ARM922T, ARM926E--S, ARM940T, 
消除 指令 cache МСЕ p15,0,Rd,c?,e5,0 ARM?946E-S, ARM1022E, АЕМ102ВЕ]-5 
Strong ARM, XScale 


1 
例 12. 2 显示 了 如 何 使 用 这 3 条 指令 清除 cache, 读者 可 以 直接 使 用 本 例 , 也 可 以 根据 
系统 需要 稍 做 修改 。 示 例 中 包含 一 个 产后 3 个 饮 程 的 宏 ( 使 用 宏 的 详细 信息 见 附录 А). 
e flushiCache 清除 Leache; 


e /lushDCache | D-cache; 
€ fiushCache Е 1-сасһе 和 D-cache, 


这 些 例 程 没有 输 人 参数 ,使 用 以 下 的 原型 从 C 程序 中 调用 ， 


void flushCache (void); £ x 请 除 全 部 cache x / 
void flushDCache (void); / 清除 D-cache « / 
void flushiCache (void); /* WE I-cache x / 





М 
O 
O 
O 
= 
(D 
e 
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【 例 12. 3] 本 例 首 先 要 据 所 支持 的 不 同 全 将 内 核 分 细 。 








> 
= 这 里 使 用 一 个 名 为 CACHEFLUSH f ox erg BTE. ACEEA RAAI #f fF Е, 
* 将 0 写 人 CPl5:e?:Cm。 接 下 来 根据 需要 的 cache 操作 的 类 型 利 不 同 的 内 核 , 择 人 特定 的 
@| МСЕ}, 
3 IF {CEU} = "ARM720T LOR: À 
Ф (CPU) = "ARMS20T LOR, X 
Ф (CPU) = "ARMS22T' LOR: \ 
Š (CPU) = "ARMS26EJ - 5' ШВ; À 
Ф (CPU) = "ARM940T" LOR: \ 
O (CPU) = "kRM946E-S" LOR: \ 
c (CPU) = "ARM1022E" DOR, X 
D (CPU) = "ARM1026EJ- S" LOR; V 
(CPU) = "SA ~ 110" LOR; À 
(CPU) = "SCALE" 





cf RN 0 ,CP15,c7 格式 的 寄存 所 
MACRO 
CACHEFLUSH Š op 


MOV cf, #0 
408 IF "ор" = "Icache" 
MCR р15,0,С7#,с7.с5,0 ;清除 Leache 
ENDIF 
IF " $ op" = "Dcache" 
MCR pi5,0,c7f.c7,c6,0 ;清除 D-cache 
ENDIF 
IF "бор" = "Ірсасће" 


IF (CPU) = "ARM940T" ,LOR, V 
{CPU} = "ARMS46E - S" 


MCR р15,0,с7#,с7,с5,0 ;清除 I-cache 
МСА — p15,0,c7£,c7,c6,0 :清除 D-cache 
ELSE 
MCR — p15,0,.c7£,c7,07,0 ;清除 I-cache 和 D-cache 
ENDIF 
ENDIF 
MOV рс, lr 


MEND 
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ТЕ | CPU} = "hRM7T20T 
EXPORT fiushCache 
flushCache 


SOUODO ZL 


CACHEFLUSH IDcache 
ELSE 
EXPORT flushCache 
EXPORT flushiCache 
EXPORT fiushDCache 
flushCache 
CACEEFLUSH 1Dcache 
flushlCache 
CACHEFLUSH Icache 





flushDCache 
CACHEFLUSH Dcache 
ENDIF 
ENDIF 


最 后 ,多 次 使 用 宏 创建 例 程 ARM?20T 具有 指令 -数据 统一 cache, 所 以 上 只 使 用 flush- 
Cache 例 程 即 可 。 对 于 其 它 内 核 ,3 次 使 用 密 来 创建 3 个 例 程 ， 
这 个 例子 比 大 多 数 实 现 需 求 包 含 更 多 的 代码 。 但 是 它 给 出 了 一 个 支持 当前 所 有 ARM 
内 核 的 详尽 程序 。 读 者 可 以 根据 特定 的 ARM 内 核 在 例 12. 2 的 基础 上 编写 较 简 单 的 程序 ， 
这 里 以 ARM926EJ - S 为 例 , 东 范 如 何 从 例 12.2 中 提 到 3 个 例 程 。 重 新 编写 的 代码 如 下 ， 
EXPORT FlushCache926 
EXPORT flushICache926 
EXPORT £lushDCache926 
СТЕВН 0 1 CPl5:c7 НЯ 
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flushCache325 
MCR р15,0,07#,с7,с7,0 ;清除 І-сасћ 和 D-cache 
Мру pe. lr 
flushiCache926 
MCR — pi5,0,c7f,c7,c5,0 ;清除 І-сасћ 
MOV po, lr 
flushDCache926 
MCR — pi5,0,c7£,c7,c6,0 1 清除 D-cach 
MOY ре, lr 


如 果 用 语言 编写 , 则 可 使 代码 更 加 简单 ,并 写成 能 被 放 在 include НЕ RE 








apns sJedoje^ecg uJeisAS NAY 
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ОЈ. МТ: 
. inline void flushCache9026 (void) 
{ 
unsigned int c7format = 0, 
| Aasm(MCR p15,0,c7format,c7,c7 01; / ж 清除 T cache 和 D-cache * / 
} 
. inline void flushDCache926 (void) 
1 
unsigned int c7format = 0; 
— asn(MCR p15,0,c7format,c7,06,0] ; / = 清除 D-cache x / 
} 
. inline void flushlCache926 (void) 
i 
unsigned int c7format = 0; 
. asmi(MCR p15,0,c7format,c7 ‚©5,0}; / 清除 Leache» / 
} 


本 章 中 的 其 余 例子 是 使 用 ARM 汇编 语言 编写 的 ,并 适用 于 当前 所 有 内 核 。 想 同 的 提 
取 过 程 也 适用 于 其 它 例子 。 


12.5.2 清理 cache 


清理 cache 即 执行 指令 ,命令 cache 控制 器 将 所 有 带 有 了 脏 位 的 D-cache £553 A 8I E £p 
去 。 在 这 个 过 程 中 ,cache 行 中 的 脏 位 将 被 清除 。 清 理 cache 操作 可 以 重建 cache 和 主 存 之 
间 的 数据 的 一 致 性 。 此 操作 仅 适 用 于 使 用 回 写 策略 的 D cache。 

REAG (writebach) WAE (copyback) 在 一 些 地 方 也 通常 表示 注 理 (clean) 的 意思 。 
这 些 术 语 与 措 述 cache 写 策略 的 甫 词 相近 ,但 在 这 种 情况 下 ,它们 描述 的 是 对 cache 存储 天 
所 作 的 操作 。 在 非 ARM 系统 中 ,术语 刷新 (iusi) 往往 与 ARM 系统 中 游 理 (clean) 意思 
相同 。 | 


12.5.3 清理 D-cache 


到 本 书 截稿 为 止 ,有 3 种 清理 D-cache 的 方法 ( 见 表 12. 4)。 有 共 体 的 处 理 方法 与 处 理 器 
有 很 大 关系 ,因为 不 同 的 处 理 器 内 核 有 各 自 不 同 的 指令 来 清理 D cache, 








$ 12.4 
3 法 示 
路 利 组 索引 寻 址 
RET E Ctest-clean) 


读 基 一 特定 存储 器 块 的 特殊 分 配 策略 





虽然 清理 cache 的 方法 有 很 多 种 ,但 在 下 面 的 例子 中 ,会 提供 相同 的 过 程 调 用 ,为 所 有 
的 内 核 提 供 一 致 性 的 接口 。 这 里 给 出 了 3 个 程序 来 清理 整个 cache,cache 会 在 每 次 清理 之 


前 做 一 次 写 操作 ， 

Ф cleanDCache НЕ р-сасһе; 

Ф cleanFlushDCache ”清理 并 清除 D-cache; 

Ф cleanFlushCache ЭЭР: D-cache 和 I-cache, 

CleanDCache, cleanFlushDCache 和 cleanFlushCache 三 个 过 程 不 需要 输入 参数 ,并 且 
可 以 在 已 程序 中 以 下 面 的 形式 来 调用 ， 

Void cleanDCache( void); / w 清理 Dcachex / 


4j 12.3 


例 12, 4 
ЇЙ 12.5 


Void cleanFlushDCache( void); 
Void cleanFlushCache( void), 


清理 D-cache 的 方法 


/ * 清理 并 清除 D-cache « / 
/+ 清理 并 清除 D-cache RI I- cache x / 


在 编写 这 些 例子 中 的 宏 时 ,应 使 它们 不 需要 做 大 重修 改 就 可 以 支持 尽 可 能 多 的 ARM 
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处 理 器 


ARMIZ2OT, ARMS22T, ARMS926E]-S, ARM94OT, 
АЕМЭ46Е-5, ARMIO22E, ARM1026EJ-S 


SeuoDo zi 


ARM926FJ-5, ARMIO2S5EJ-S 
XScale, SA-110 
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内 核 。 为 了 达到 这 个 目的 ,在 本 例 中 和 本 章 的 其 它 例子 中 ,使 用 了 一 个 通用 的 头 文件 , 头 广 


件 名 为 cache. h, M, 


CSIZE 
CLINE 
NWAY 

I7SET 
I7WAY 
I9WAY 


CSIZE 
CLINE 
NWAY 


以 下 程序 ; 


IF (CPU) = "ARM920T" 
EQU 14 

EQU 5 

EQU 6 

EQU 5 

EQU 26 

EQU 26 

ENDIF 

IF (CPU) = "ARM922T" 
EQU 14 

FQU 5 

EQU 6 


¡cache size as 1 << CSIZE (16 K asumed) 
¡cache line sie in bytes as ] << CLINE 
+set associativity = 1 << NWAY (64 way) 
;CP15 c7 st incrementer as 1 «е ISET 
;CP15 c7 way incrementer as 1 << SSFT 


;CP15 c9 way incrementer as 1 << SSET 


;Cache size as 1 «e COIZE(16 K assumed) 
;cache line size in bytes as 1 «« CLINE 


iset associativity = 1 «< NWAY (64 кау) 











opino sieciojSASG WEAS IN: 
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CSIZE 


EQU 5 
EQU 26 
EQU 26 


IF (CPU) = "ARM926EJ - S" 
EQU 14 

EQU 5 

EQU 2 

EQU 4 

EQU 30 


IF (CEU) = "ARM940T" 
EQU 12 

EQU 4 

EUG. 

EQU 4 

EQU 26 

EQU 0 


IF (CPU) = "АВМЭ46Е — 5" 
EQU 12 
EQU 5 
EQU 2 
EQU 4 
EQU 30 
EQU ü 


IF (CEU) = "ARM1022k" 
EDU 14 

EQU 5 

EQU 6 

EDU 5 

EQU 26 

EQU 26 


IF (CPU) = "ARM1026EJ — S" 
En 14 


¡cache 大 小 为 1 << CSIR E 2 160) 
;cache {т 1 << CLINE 
;组 相 联 度 = 1 << NWAY (4 Bi) 


;сасһе 大 小 为 ] << CSIZE (4K) 
:cache 行 的 字 节 数 为 1 << CLINE 
HERE = 1 << NWAY (64 BR) 


;cache 太 小 为 1 << CSIZE (ЕЕ 4 K) 
cache 行 的 字 节 数 为 1 << CLINE 
НЕКИ = 1 << NWAY (4 EK) 


;cache 大 小 为 1 << CSIZE (16 К) 
jcache 行 的 字 节 数 为 1 << CLINE 
;组 相 联 度 = 1 << NWAY (64 路 ) 


icache 大 小 为 1 << CSIZE GREW 16 E) 
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CLINE EQU 5 ;Cache 行 的 字 节 数 为 1 << CLINE 局 
NWAY EQU 2 ;组 相 联 度 = 1 << NWAY (4 BO С) 
178ЕТ EQU 5 Q 
1ТКАҮ EQU 30 = 
ENDIF Ф 
IF (CPU) = "5А – 110" 
CSIZE EQU 14 ;cache 大 小 为 1 << CSIZE (16 K) 
CLINE БОП 5 ;cache 行 的 字 节 数 为 1 << CLINE 
NWAY EQU 5 HERE = 1 << NWAY (4 ED 
CleanAddress)cache EQU 0x8000 
ENDIF 
IF {CPU} = "XSCALE" 
CSIZE EQU 15 ;cache 大 小 为 1 << CSIZE (32 К) 
CLINE EQU 5 ;cache 行 的 字 节 数 为 1 << CLINE 
NWAY RQU 5 + 组 相 联 度 = 1 << NWAY (32 Bi) 
MNWAY EQU 1 (XE Hf D-cache 的 组 相 联 度 = 1 << NWAY (2 р) 
MCSIZE FOU 11 ;迷你 cache 的 大 小 为 1 << CSIZE (2 K) 
ENDIF 
РРР 
SWAY EQU (CSIZE - NWAY) ;每 路 大 小 = 1 << SWAY 
NSET EQU (CSIZE- WAY- CLINE) — fj ELA cache fj = 1 << NSET 413 


头 文件 中 的 值 (value) 或 者 是 用 以 2 为 底 的 对 数 表示 的 cache 的 大 小 ,或 者 表示 域 位 置 
指针 (field locator)， 如 果 值 表示 的 是 一 个 位 置 指 针 (locater) ,那么 它 代 表 CP15 寄存 器 位 
域 的 最 低位 。 如 本 例 中 的 常量 17WAY 指向 CP15:c7:c5 寄存 器 的 way 选择 域 最 低位 ， 在 
ARMO920T, ARM922T, ARM940T 种 ARMIO22E rfi, ITWAY 的 值 为 26; 在 ARM926E] - 
S, ARM946E - S 和 ARM1026EJ -S 中 ,17WAY 的 值 为 30( 见 图 12.10)。 数 值 以 这 种 格式 
存储 ,可 以 支持 使 用 MCR 指令 发 出 清理 命令 时 ,将 内 核 寄存 器 (Rm9) 数 据 向 CPi5 ,Cd;Cm 
寄存 器 搬移 的 位 操作 。 

现 将 头 文件 中 依赖 于 内 核 体 系 结构 的 6 个 常量 分 别 列 出 ; 


€ CSIZE 18 cache 全 部 字 节 数 以 2 为 基数 可 对 数 所 得 到 的 值 。 换 名 话说 ,cache 的 
容量 就 是 (1 << СУЕ) Е, 

€ CLINE $ cache 行 中 的 字 节 数 以 2 为 基数 取 对 数 所 得 到 的 值 。 所 以 cache 行 的 
EEAO < СИМЕ) 2$, 

e NWAY 指 路 (way) 的 数量 ,与 组 相 联 相向 。 





epine) sjJecloleAed UiSISAS WHY 
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ARM BA ALT АЛ 








ARM920T 
31 26 25 87 54 0 
^ Way SBZ SBZ 

ARMO922T 

31 26 25 76 5 0 
Way SBZ Set SBZ 

ARM940T 

31 26 25 6 5 43 0 
Way SBZ Set | sez | 

ARMO926EJ-S,ARMO46E-S,ARM1026EJ-S 

3] 30 29 y x 5 4 0 

wy| sz | st | sz 

ARMIO22E 

31 26 25 87 5432 0 


Е 12.10 使 用 路 和 组 索引 寻 址 济 理 cache 时 CP15:c7:Cm 寄存 器 Rd 的 格式 


e J7SET 组 索引 在 CP15:c? 指令 寄存 器 中 左 移 的 位 数 。 这 个 值 也 被 用 作 顺序 访问 
cache 时 ,在 CP15;c7 寄存 器 中 增 大 或 者 减 小 组 索引 部 分 的 大 小 ， | 

eIWAY 路 索引 在 CP15:e7 指令 寄存 器 中 左 移 的 位 数 。 这 个 值 也 被 用 作 顺 序 访问 
cache 时 ,在 CP15:c? 寄存 器 中 增 大 或 者 减 小 路 索引 部 分 的 大 小 。 

ө 19WAY 路 索引 在 CP15:c9 指令 寄存 器 中 左 移 的 位 数 。 这 个 值 也 被 用 作 硕 序 访问 
cache 时 ,在 CP15:c9 寄存 器 中 增 大 或 者 减 小 路 索引 部 分 的 大 小 。 


还 有 2 个 由 内 核 特 殊 数 据 计 算 而 来 的 常量 ， 

e SWAY 一 路 中 的 字 节 数 以 2 为 基数 取 对 数 所 得 到 的 值 。 所 以 一 个 way 的 大 小 就 
是 (1 << SWAY) 个 字 节 。 

€ МЕТ 指 每 路 中 的 cache 行 数 , 即 组 索引 (set index) B É BE 2 为 基数 取 对 数 所 
得 到 的 值 。 组 的 数量 为 (1 << NSET) 。 


12.5.4 使 用 路 和 组 索引 寻 址 清理 D-cache 


有 些 ARM 内 核 支持 用 路 (way) 和 组 (seb) 素 引 寻 址 来 确定 基 _ cache 行 在 cache 中 的 
位 置 ,并 清理 和 清除 该 单一 的 cache 行 。 表 12.5 中 以 MCR 指令 的 形式 列 出 了 清理 和 清除 
一 个 cache 行 的 命令 。 有 2 个 命令 可 以 用 来 清除 一 个 cache 行 ; 清 除 指令 cache 行 和 清除 数 
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JE cache 行 。 其 余 的 2 个 命令 用 来 清 埋 D-cache :清理 cache 行 和 清理 并 清除 cache 行 。 NO 
812.5 РЖ З JAHE cache 的 CP15:e7 寄存 器 命令 Q 
$ 5 MCR 指令 "ТҮТҮН G 
消除 指令 cache f? MCR pi5,0,Rd,c^,c5,2 — ARMS26EJ - S, ARM940T, ARM1026EJ - S ‚© 
清除 数据 cache fT MCR pl5,0.Rd,c?.c6,2 — ARM928EJ - $, ARMB40T. ARM1026EJ - S 
清理 数据 cache fj MCR pl5, 0, Ré. c7, АВМЭ?ОТ,АКМЭ22Т, ARMS26EJ - S, 
с10,2 - ARM340T, ARM946E - S, ARM1022E, 
ARMIQO286E] - 5 
清理 并 清除 数据 cache fj MCR pl5, 0, Rd, c^, — ARM920T, ARMSZ2T, ARMS26EJ - S, 
14,2 ARM940T, ARM946E - S, ARM1022E, 
ARM1026E] - S 
列 出 的 每 个 内 核 通过 路 和 组 索引 导 址 方式 选 定 特定 的 某 cache 行 。 当 使 用 这 些 指 令 
时 ,在 同样 的 ARM 处 理 器 内 核 上 执行 表 12.5 中 的 4 条 指令 ,内 核 寄 存 器 Rd 中 的 值 是 相同 
的 ;但 是 不 同 的 处 理 器 的 寄存 器 位 城 格式 是 不 同 的 。 图 12. 10 所 示 为 支持 通过 路 寻 址 方式 
清理 和 清除 一 个 cache 行 的 ARM 内 核 的 CP15:c7:Cm 寄存 器 格式 。 在 内 核 寡 存 器 (Rd) 中 
以 相应 的 CP15:e7 寄存 器 格式 创建 一 个 数值 (value) ,就 可 以 执行 这 些 命令 ,寄存 器 通常 包 
会 两 个 位 域 (bit field) ,选择 路 和 选择 该 路 中 的 组 ， 一 旦 寄存 器 被 创建 ,执行 相应 的 MCR 
指令 就 可 以 把 内 核 寄存 器 (Rd) 中 的 内 容 放 到 CP15:c7 寄存 器 中 ， 415 


在 下 面 的 例子 中 列 出 了 在 ARM920T, ARM922T, ARM940T, АКМ946Е - S 和 
АКМ1022Е 处 理 髓 上 的 cleanDCache, cleanFlushDCache 和 cleanFlushCache RH. 


[5)12.3] 这 里 使 用 一 个 名 为 CACHECLEANBYWAY 的 宏 创建 使 用 路 和 组 索引 寻 
址 方式 清理 ,清除 和 清理 清除 cache 的 3 个 过 程 ， 
所 定义 的 宏 使 用 头 文件 cache. h 中 的 常量 以 CP15:07 寄存 器 格式 (e7f) 为 相应 的 处 理 
器 由 核 建立 一 个 处 理 器 寄存 器 。 第 一 步 将 c7f 寄存 器 清 零 ,在 MCR 指令 中 ,这 被 作为 Rd 
输入 值 来 执行 相应 的 操作 ; 接 下 来 宏 根 据 图 12. 10 的 格式 ,每 次 写 cache 行 都 会 增加 一 次 
e 革 寄存 器 。 组 索引 在 内 循环 中 增加 ,路 索引 在 外 循环 中 增加 。 НЕЕ, [Ж 
步 清 理 所 有 路 当中 的 所 有 cache fT. 


AREA cleancachebyway,CODE, READONLY ;Start of Area block 


IF (CPD) = "ARMO20T" :LOR: À 
(CPU! = "АВМӘ22Т" DOR, \ 
(CPU) = "ARM940T" СОВ, V 


{CPU} = "ARM946E - S" :LOR: À 








СТЕ RN 


MACRO 
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{CEU} = "АКМ1022Е" 
EXPORT cieanDCache 
EXPORT cleanFlushDCache 
EXPORT cleanFlushCache 
INCLUDE cache. h 








PIS eT register format 


CACHECLEANBYWAY $ op 


MOV єтї, #0 
5 
IF "S op. = "Dclean" 
МСЕ р15, 0, СТЕ, c7, сіб, 2 
ENDIF 
IF "$ op" = "Dcleanflush" 
HCR pi5, Q, c?f, cT, с14, 2 
ENDIF 
ADD СТЕ, СТЕ, #1 << I7SET 
416 TST Cf, #1 << (МЕТ + I7SET) 
BEQ % ВТ5 
BIC СТЕ, cTf, #1 «е (NSET + І75ЕТ) 
ADDS СТЕ, c?f, #1 << ITHAY 
BC % BT5 
MEND 
CleanDCache 
CACHECLEANBYWAY Dclean 
NOV pc, ir 
cleanFlushDCache 
CACHECLEANBYWAY Dcleanflush 
MOV рс, lr 
cleanFlushCache 


CRCHECLEANBYWAY Dcleanflush 


;建立 c7 格式 


;清理 D- cline 


;清理 ,清除 D- cline 


;组 索引 +1 
+ 测试 索引 演出 


NS ASA B 
КАНЕ +1 
B DLE l 











MCR р15,0,10,с7,с5,0 РЕ I-cache 
MOV рс, lr 
ENDIF 


12.5.5 使 用 test-clean 命令 清理 D-cache 


2 种 较 新 的 ARM 内 核 ARM926EJ - S ft ARMIO26EJ -S 可 以 使 用 test-clean( 测 试 清 
HD CP15,c7 寄存 器 清理 cache 行 。test-clean 命令 是 一 条 特殊 的 清理 指令 , 它 用 在 软件 御 
环 中 可 以 非常 有 效 地 清理 cache。ARM926E] - S $0 ARMIO26EJ - S 同样 也 支持 使 用 组 索 
引 和 路 索引 来 清理 cache, 但 是 使 用 test-clean 命令 清理 cache 可 以 更 加 高 效 ， 
在 下 面 的 程序 中 ,后 用 表 12.6 中 所 示 的 命令 清理 ARM926EJ - S 和 ARM1026E] - S 
内 核 。 
126 测试 清理 单一 D-cache 行 的 命令 





# + МСЕ #4 ЮА 
M PHM ЮА Г-сасће 行 MCR pl5,0,r15,c?,c10,3 АКМ92&Е] - 5, ARMIO26EJ - S 
通过 和 福 环 调试 靖 现 并 清除 D-csche МСЕ pl15,0,715,c7,014,3 ARMS3926EJ - 5. ARMIO26E] - S 


[5| 12. 4) ARMS26EJ] - S fll ARMIO28E] - S 内 核 的 eleanDCache, cleanFlushD- 


Cache 和 cleanFlushCache 程序 ， 
测试 铺 理 命令 找到 第 一 个 带 有 脏 位 的 cache 行 , 将 其 中 的 内 容 和 传送 到 主 存 中 ,从 而 清理 
cache。 如 果 在 cache 中 还 有 其 它 的 脏 位 ,那么 Z 标 志 位 就 会 被 清 零 。 


IF {СРО} = "ARM926EJ - S" ,LOR, (CPU) = "ARMI026EJ- 5" , 
EXPORT cleanDCache 
EXPORT cleanFlushDCache 
EXPORT cleanFlushCache 


MRC p15, 0, pc, c7, c10, 3 ;测试 清理 D- cline 
BNE cleanDCache 
: Kov pe. г 
cleanFlushDCache 
MRC pi5, 0, pc, cT, c14, 3 AE uS ЖЗ ВЕ D- сліпе 
BRE cleanFlushDCache 
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MOV рс, lr 
cleanFlushCache 
MRC р15, 0, pc, c?, с14, 3 ;测试 清 姬 并 清除 DD- cline 
BNE cleanflushCache 
MCR р15, 0, rO, ст, c5, 0 i 消除 I-cache 
MOV pc, lr 
ENDIF 


清理 cache 可 以 通过 创建 一 个 使 用 test-clean 命令 的 软件 循环 来 实现 。 通 过 测试 Z 标 
{ЗЕ ЕШ И BL. AER EUR БЕД Е 8] D-cache BERE PE, MEENE, test-clean fg 
令 使 用 程序 计数 器 (r15? 帮 为 Rd 寄存 器 到 MCR 指令 的 输入 。 


12.5.6 在 Jntel XScale SA ~ 110 和 Intel StrongARM 内 核 中 
清理 D-cache 


Intel XScale 和 Intel StrongARM 处 理 器 使 用 第 3 种 方法 来 清理 其 D-cache, Intel XS- 
cale 处 理 器 有 一 种 命令 可 以 在 D-cache 中 分 配 一 行 而 不 需要 填充 它 。 当 处 理 器 执行 这 条 命 
令 时 ,有 效 位 (Cvalid bit) 被 里 1, 并 使 用 Rd 寄存 器 提供 的 cache 标签 (cache-tag) 填 充 目 录 项 
(directory entry)。 并 且 , 当 这 条 命令 被 执行 时 , 主 存 不 会 向 cache 传送 数据 。 这 样 ,cache 
中 的 数据 宜 到 被 处 理 器 写 操作 时 才 会 被 初始 化 。 表 12. 7 中 的 分 配 命令 有 自动 替换 出 胜 
cache 行 的 优点 。 


312.7 Intel Xscale 分 配 D-cache 行 的 СР15:с7 命令 


Intel StrongARM 和 Intel Xscale 处 理 器 需要 附加 的 技术 来 清理 cache。 它 们 需要 一 块 
专用 的 .未 被 使 用 的 \ 且 可 cache 的 主 存 来 清理 cache。 通 过 相应 的 软件 设计 ,可 以 使 这 个 存 
储 器 块 专门 用 作 清 理 cache, 

由 于 使 用 轮转 赫 换 策略 ,Intel StrongARM 和 Intel Xscale ЖЕ ЕГИ ЗГЕ Г ЕЕ + 
存 块 清理 cache, BUR —- BUS BS BUS 1 ЖЕШ A ШЕ UE ETE rh S cache 大 小 相同 的 一 
块 ,那么 这 一 系列 的 读 操 作 将 会 把 所 有 当前 cache 73836 h cache, 并 把 读 取 的 数据 块 放 到 — 
cache 中 。 当 顺序 读 操作 结束 时 ,cache 中 不 会 包含 任何 重要 的 数据 ,因为 专用 的 读 块 中 没 
有 有 用 的 信息 。 所 以 cache 可 以 被 清除 而 不 用 担心 丢失 有 用 信息 。 

可 使 用 这 种 技术 来 清理 Intel StrongARM 的 D-cache 和 Intel Xscale 的 迷你 D-cache, 
Intel StrongARM 和 Intel Xscale 处 理 器 的 cleanDCache, cleanFlushDCache 和 cleanFlush- 
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Cache 过程 的 源 程 序 在 下 面 的 例子 中 。CleanMiniDCache 是 一 个 附加 程序 ,用 来 清理 Intel 
XScale ФР ДЕУ D-cache, 

СЯ 12.5] ABSIT 2 p E :CPWAIT 8l CACHECLEANXSCALE, CPWAIT 是 
一 个 3 指令 序列 ,用 以 在 XScale 处 理 器 上 防止 CP15 操作 的 副作用 。 由 于 宏 使 用 这 些 指令 ， 
所 以 有 是 够 的 处 理 器 局 期 执行 ,从 而 确保 CP15 命令 的 完成 并 且 流 水 线 中 已 经 没有 指令 ， 
CPWAIT ж X Si T 





Seuooo Z| 





MACRO 
CPWAIT 

MRC р15,0,г12,с2,с0,0 ; 读 所 有 Ср15 寄存 器 
MOV г12,г12; 

SUB pc.pe, d 4, ‚ЖГ 435 
MEND 


 CACHECLEANXSCALE 创建 了 cleanDCache, cleanFlushDCache 和 cleanFlush- 
Cache 3 个 过 程 。 宏 的 第 1 部 分 为 程序 设 定 了 物理 参数 。 第 1 个 参数 adr 是 用 来 清理 cache 
的 专用 存储 据 的 虚拟 起 始 地 址 。 第 2 个 参数 nl 是 cache 中 cache 行 的 总 数 。 


IF (CPU) = "XSCALE" ,LOR, (CPU) = "SA— 110" 

EXPORT cleanDCache 

EXPORT cleanFlushDCache 

EXPORT cleanFlushCache 

INCLUDE cache.h 419 
CleanAddressDcache EQU 0x8000; — (32k block  0x8000- 0x10000) 
CleanàddressMiniDcache EQU Ox10000; (2k block  Oxl0000- 0х10800) 


айг RN 0 ;起 始 地 址 
п) RN 1 ACIES cache 行 数 
tap RN 12 T EI 

MACRO 

CACHECLEANXSCALE Бор 


IF " $ op" = "Delean" 

LDR adr, = CleanAddressDcache 
MOV nl, #(1 << (CHWAY + NSED) 
ENDIF 
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IF” $ op" = "DcleanMini" 


LDR adr, = CleanAddressMiniDcache 
MOV nl, # (1 << (MNWAY + NSET)) 
ENDIF 


IP {CPU} = "XSCALE" ,LAND, "$ op" = "Delean" 


cleanDCache 


CleanFlushDCache 


r I D-cache 11 


;*1D-cline 


;装载 数据 ; Dcache 行 +1 


1 一 1 loop count 


MCR р15, 0, adr, c7, c2, 5 
ADD adr, adr, #32 

ERDIF 

IF (CPU)-"SA- 110" ,LOR; "$ op" = "DcleanMini" 
LDR tmp, [adr ], 31 32 

ENDIF 

SUBS nl, nl, #1 

BNE % BT5 

IF (CPU) = "XSCALE" 
CEWAIT 

ENDIF 

HEND 

CACHECLEANXSCALE Dclean 

MOV рс, Ir 

STMED spf, {1r} 

BL c1eanDCache 


IF (CPU) = "XSCALE" 
BL cleanMiniDCache 


с1еапЁ1пвһСасһе 


ENDIF 
MOV го, #0 
MCR p15,0,r0,c7,c6,0 
IF (CPU) = "XSCALE" 
CPWAIT 
ENDIF 
LDMFD sp!, {рс} 
SIMED sp!, {lr} 


BL cleanDCache 


清除 D-cache 
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IF (CPU! = "XSCALE" 
BL cleanMiniDCache 
ENDIF 
MOV ro, #0 
MCR pi5,0,r0,c7,c7.0 ;清除 I-cache 和 D-cache 
IF {CPU} = "XSCALE" 
CPWAIT 
ENDIF 
LDMED spl. {рс} 
ENDIF 


Seuopo zi 


IF (CPU) = "KSCALE" 
EXPORT cleanMiniDCache 


cleanMiniDCache 
CACHECLEANXSCALE DcleanMini 
MOV pc, 1r 
ENDIF 
接 下 来 , 宏 会 筛选 所 需要 的 命令 来 执行 2 个 处 理 器 内 核 的 清理 操作 。Intel XScale 使 用 
CP15:c7 行 分 配 命令 来 清理 Decache, 并 通过 读 取 专用 的 存储 器 块 来 清理 迷你 D-cache。In- 
tel StrongARM 读 取 存 情 器 中 特定 的 一 块 来 清理 其 Peache。 
最 后 ,可 多 次 使 用 宕 来 创建 cleanDCache,cleanFlushDCache,cleanFlushCache 和 clean- 
MiniDCache 等 过 程 。 


12.5.7 清理 和 清除 部 分 cache 


ARM 内 核 支 持 通 过 访问 主 存 中 某 一 个 cache 行 所 对 应 的 主 存 地 址 来 清理 和 清除 该 
cache 17. KR 12.8 以 MCR 指令 的 形式 列 出 了 这 些 命令 。 这 些 命令 中 的 2 个 可 以 用 来 清除 
单一 的 cache 行 :一 个 命令 负责 清除 指令 cache; 另 一 个 命令 清除 数据 cache。 另 外 2 个 命令 
用 来 清理 数据 cache: 一 个 清理 单一 的 cache 行 ; 另 一 个 清理 并 清除 一 个 cache 行 ， 
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3 11.8 通过 主 存 中 所 对 应 的 地 址 清理 和 清除 一 个 cache 行 的 命令 


Ф + 





清除 指令 cache fi 













清除 数据 cache ff 


SN cache fj 


清理 并 清除 数据 cache ff MCR pl5,0, Rd, c7,c14,1 


МСЕ 指令 


MCR p15,0, Ка, с7,с5,1 


MCR 515,0, Rd,e?.c8,1 


MCR pi5,0,Rd,c?,c10,1 





支持 的 内 栋 


АЕКЕМУ20Т,АЕМӘ22Т, ARMBS26EJ - 5, 
ARMHU48E - 5, ARMIO22E, 
АЕМ1026ЕЈ - S, XScale 


ARM920T, ARM322T, ARMIE- S, 
ARMS946E - S, ARMIOZZE, 
ARMIO26E] - S, StrongARM, XScale 


ARM$920T., ARM922T, ARMS25E] - 5, 
ARM?948E - S, ARMIO22E, 
ARMIDO26E] - S, Strong ARM, XSeale 


ARMS20T, ARMS22T, ARM326E] - S, 
АЕМЭ46Е - S, ARMIO22E, 
АКМ102бЕ] - S, XScale 


当 使 用 这 些 指令 时 ,在 间 一 个 处 建 器 上 ,内 核 寄存 器 Rd 的 值 对 于 这 4 个 命令 是 祖 同 
的 ,并 且 它 的 内 雁 必 须 能 够 将 CP15 7 寄存 器 四 位 ;然而 ,对 于 不 同 的 处 理 器 ,CP15，e7 Ж 
存 器 位 值 (bit value) 的 格式 稍 有 不 同 。 图 12. 11 所 示 为 支持 清理 和 清除 一 个 cache 行 的 内 
核 的 寄存 髓 格式 。 如 果 内 核 支 持 MMU, 那 么 清理 和 清除 一 个 cache 行 可 以 通过 改变 串 氢 
地 址 来 实现 ;如 果 内 核 支持 MPU, 那 么 可 以 通过 改变 物理 地 址 实现 ， 
这 里 使 用 这 4 个 命令 来 创建 6 个 例 程 , 用 来 清理 .清除 或 者 婚 清 理 又 清除 cache 中 代表 


主 存 中 某 个 区 域 的 cache 行 。 


€ flushlCacheRegion 
@ tlushDCacheRegion 
& cleanDCacheRegion 


清除 Tcache 中 代表 主 存 中 一 块 区 域 的 cache 17; 
清除 D-cache 中 代表 主 存 中 一 块 区 域 的 cache fT; 
清理 D-cache 中 代表 主 存 中 一 抉 区 域 的 cache ti; 


€ cleanFlushDCacheRegion 清理 并 清除 D-cache 中 代表 主 存 中 一 块 区域 的 cache 行 ; 


è llushCacheRegion 
@ cleanFlushCacheRegion 


清除 D-cache 和 Fcache 中 代表 主 存 中 一 块 区 域 的 cache 行 ， 
清理 并 清除 D-cache, 接 下 来 清除 Leache, 


对 于 所 有 的 过 程 都 有 2 个 输入 参数 , 主 存 中 的 起 始 地 址 Cadr) 和 和 区域 中 的 字 节 数 (b)。C 


ЖШТ; 


void flushICacheRegion(int + adr,unsigned int b); 
void flushDCacheRegion(int + adr unsigned int b); 
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№ 
ARM920T,ARMS22T, ARM926EJ-S, ARMT026EJ-S 
3] 5 4 Ü Q 
改变 的 礁 拟 地 让 SBZ e 
= 
ARM9946E-S Ф 
31 5 4 0 
物理 地 址 SBZ 
ARMIO22E 
3M 5 á 3 2 û 
ЕТП [эв] sz | 
Intel StongARMIatel XScale 
3l | 5 4 0 
PE GRE TL Rh SBZ 
图 12,1I 通过 主 存 中 所 对 应 的 地 址 清理 积 清 陈 cache tri] CP15:07 审 存 器 的 格式 
void cleanDCacheRegion(int * adr,unsigned int b); 
void cleanFlushDCacheRegion(int # adr, unsigned int b); 
void flushCacheRegion(int # adr,unsigned int b); 
void cleanFlushCacheRegion(int * adr,unsigned int b); 
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当 使 用 以 上 指令 清理 cache 区 域 过 程 时 要 小 心 ,它们 上 比较 适合 小 存储 区 域 。 如 果 区 域 
大 小 比 cache 大 好 几 售 ,那么 使 用 12. 5. 4,12. 5, 5 和 12.5.6 小 节 中 介绍 的 清理 cache ERI 
来 清理 整个 cache, 友 而 是 更 加 有 效 的 方法 。 

只 有 少数 АКМ 内 核 支持 区 域 过 程 。 同 样 这 些 内 核 也 列 在 接 下 来 的 未 全 代码 的 开始 部 
分 中 。 


[112,6] 宏 将 输入 的 地 址 裁 前 成 一 个 cache 行 大 小 ,这 种 裁剪 通常 将 地 址 对 应 到 
АЕМ1022Е 内 核 的 cache 行 的 第 一 个 双 字 (double word) ( 见 图 12.11), 然后 , 宏 会 将 输入 
参数 字 节 数 8 转换 成 cache тШ. ЖЮ cache 行 的 数目 作为 计数 器 变量 在 选中 的 清除 和 清 _ 


理 操 作 中 作 循环 ,每 一 次 循环 结束 后 ,将 地 址 增加 一 个 cache 行 的 大 小 ， 直到 计数 锯 计 数值 
为 零 。 


IF (CPU) = "ARM920T" DOR; V 
(CEU) = "ARM9227" :IOR À 
(CPU) = "ARMO46E - S" 1106, V 


(CPU) = "ARM926EJ- S" LOR: \ 
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(CPU) = "ARM10222" ILOR: V 
{CPU} = "ARMi026EJ- S" LOR; V 
{CPU} = "XSCALE" ILOR: À 
(CPU) = "SA — 110" 


INCLUDE cache. h 


айг RH 0 active address 

size ЕН 1 ;Bize of region in bytes 

nl R 1 ”; 台 清理 或 者 清除 的 cache 行 数 
MACRO 


CACHEBYREGION $ op 


Opine suedojeAoeg uJejsÁs WHY 


BIC adr, айг, #(I << CLINE)-1 ;clip 2 cline adr 
MOV hl, size, lsr # CLINE bytes to cline 
10 
IF "$ op" = "IcacheFluah" 
MCR — pl5, 0, adr, c7, c5, 1 清除 I-cline@adr 
ENDIF 
IF " $ op" = "DeacheFlush" 
КЕ — p15,0, adr, c7, c6, 1 HER Dcline@adr 
424 ENDIF 
IF "$ op" = "IDcacheF]ush" 
MCR Bt5 0, adr, c7. c5, 1 HE T cline@adr 
MR — pi5,0, adr, c7, сб, 1 ;清除 D-clineQadr 
ENDIE 
IF " $ op" = "DcacheClean" 
MR рі5, 0, adr, c7, c10, 1 ;请 理 D-cline@adr 
ENDIF 


ТЕ " $ op" = "DcacheCleanElush" 
IF (CPU) = "XSCALE" ;LOR;\ 
{CEU} = "SA ~ 110" 


MCR pis, 0, айг, cT, cit, 1 ;清理 D-cline@adr 
MCR p15, 0, adr, c7, c6, 1 清除 0-с1іле@ ааг 
ELSE 
MCR pis, 0, adr, ce. cl4, 1 清理 并 清除 D-cline@adr 


ENDIF 
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(CPU) = "АВМ946Е – 5" ;LOR; \ 
(CPU) = "ARM1022E" :IOR, \ 
(CPU) = "AnRM9221" DOR; V 
(CPU) = "ARM926RI — 5” :LOR, À 
{CEU} = "ARM1026EJ - S" 


ENDIE ho 
IF " $ op" = "IDcacheCleanFlush" С) 
IF (CPU) = "ARM9207" 108, \ 9 
= 

Ф 


ИСЕ р15, 0, adr, c7, с14, 1 ;请 理 并 清除 р-с1іпе@ааг 
MCR pl5, 0, adr, c7, c5, 1 ЇЙ 1-с1іле@адг 
ENDIF 
IF {СЕП} = "XSCALE" 
MCR pl5, 0, adr, c7, с1й, 1 清理 D-clineQ adr 
МСЕ р15, 0, adr, c7, c6, 1 清除 D-c1ine@adr 
MCR pl5, 0, adr, c7, c5, 1 ;清除 Tecline@@adr 
ENDIF 
ERDIF 
ADD adr, adr, #1 << CLINE í f 1 next cline adr 
SUBS nl, nl, H1 í - 1 cline counter 
ВНЕ % BT10 HEBR lines +1 
IF (CPU! = "XSCALE" 425 
CEWAIT 
ENDIF 
MOV рс, lr 
MEND 


IF (CPU) = "SA- 110" 

EXPORT cleanDCacheRegion 

EXPORT flushDCacheRegion 

EXPORT cleanFlushDCacheRegion 
cleanDCacheRegion 

CACHEBYREGION DcacheClean 
flushDCacheRegion 

CACHEBYREGTON DcacheFiush 
CleanFlushDCacheRegion 

CACHEBYREGION DcacheCleanFlush 
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ELSE 





EXPORT flushICacheRegion | 

EXPORT flushDCacheHBegion 

EXPORT flushCacheRegion 

EXEORT cleanDCacheRegion 

EXPORT cleanFlushDCacheRegion 

EXPORT cleanFlushCacheRegion 
flushiCacheRegion 

CACHEBYREGION IcacheFlush 
flushDCacheRegion ' 

CACHEBYREGION Dcacherlush 
flushtacheRegion 

CACHEBYREGION IDcacheFlush 
cleanDCachehegion 

CACHEBYREGTON DcacheClean 
cleanFlushDCacheRegion 

CACHEBYREGION DcacheCleanFlush 
cleanFlushCacheRegion 

CACHEBYREGION IDcacheCleanFlush 

ENDIF 


Әріп) sedong USISAS I AJ: 


ENDIF 
426 


最 后 ,使 用 名 为 CACHEBYREGION 的 宏 创 建 例 程 。 对 于 命令 集 有 限 的 Intel Strong- 
ARM 内 核 , 可 以 创建 3 个 例 程 (procedue); 对 于 其 余 的 拥有 分 离 cache 的 处 理 器 ,可 以 创建 
所 有 的 6 个 例 程 。 


12.6 cache 锁定 


cache Е (lockdown) Æ cache 的 一 项 特性 ,使 程序 能 够 加 载 对 时 间 要 求 很 苛刻 的 代码 
和 数据 到 cache 中 来 ,并 将 这 些 代码 和 数据 标记 为 非 雁 散 (exempt of eviction) №. ЖЕ 
的 代码 和 数据 有 更 快 的 系统 反映 能 力 , 因 为 这 些 数据 和 代码 一 直 存 放 在 cache P, cache 在 
正常 操作 时 ,经 常会 涉及 到 cache 行 替换 ,这 种 替换 会 带 来 代码 执行 时 间 不 确定 的 问题 ,而 
cache 锁定 可 以 避免 这 种 不 确定 性 ， 

将 信息 锁定 在 cache 中 的 目的 是 ,避免 cache 失效 所 造成 的 负面 效果 。 然 而 ,由 于 任何 
用 作 cache 锁定 的 cache 存 情 器 单元 不 能 够 再 存储 主 存 的 其 它 内 容 , 所 以 ,可 用 的 cache 空 
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间 被 减少 本， 

ARM 内 核 为 cache 锁定 分 配 国定 的 cache 单元 。 一 般 来 济 , 分 配 作 cache 锁定 的 cache 
单元 是 一 个 路 (way)。 饮 如 :一 个 4 路 组 相 联 cache 允许 将 锁定 的 代码 和 数据 放 在 容量 为 
cache 总 容量 的 1/4 的 cache 单元 肉 。 带 cache 的 内 核 通 常 至 少 保留 一 个 路 作为 cache 的 正 
Ж ЕЕЕ. 

有 些 指 令 往往 需要 被 锁定 在 cache 中 ,如 中 断 向 量 表 .中 断 服 务 程序 以 及 为 一 些 特殊 算 
法 编制 的 代码 。 这 些 算法 被 系统 广泛 使 用 且 时 间 要 求 比 较 苛 刻 ， 对 于 数据 来 说 ,经 常 使 用 
到 的 全 局 变量 最 好 被 锁定 在 cache iB, 

锁定 在 ARM cache 中 的 数据 和 代码 不 会 被 蔡 换 。 但 是 ,如 果 cache 被 清除 ,被 锁定 的 
信息 也 会 丢失 ,存放 锁定 信息 的 cache 存储 区 也 不 能 被 用 作 一 般 的 cache 存储 区 。 必 须 重 新 
送行 cache 锁定 程序 ,以 保存 新 的 锁定 信息 。 


12.6.1 Æ cache 中 锁定 代码 和 数据 


SOuDD:5 бї 


本 小 节 将 介绍 如 何在 cache 中 锁定 代码 和 数据 。 锁 定 民 码 和 数据 的 典型 C 程序 如 下 ， 


int interrupt state, / * Н FIQ 和 IRO 位 的 状态 / 
int globalDataj 16]; 

unsigned int x vectortable = ( unsigned int x ) 0х0, 

int waylndex; 


int vectorCodeSize = 212, Гк 商量 表 和 E10 句柄 的 字 节 数 / 427 


interrupt state- disable interrupts 0; Г Ж ВН / 
enableCache () ; / * YE SS 13 S£ (MPU) ТЯ 14 СЫМО) + / 


flushCache (> ; ж 12.2 = / 
/ w йе $ БЕЙ: > / 

wayindex = iockDcache ( globalData, sizeof globalData); 

/* BOE TEILS РІО BH / 


wayIndex = locklcache ( vectortable,vectorCodeSize); 


enable interrupts(interrupt, state), ЕДЕН x у 


开始 时 ,中 断 被 禁止 ,而 cache 是 使 能 的 。 禁 止 中 断 的 程序 在 这 里 没有 表述 。 其 中 


flushCache 程序 详 见 本 章 前 几 节 的 例子 。 实 际 使 用 的 调用 取决 于 cache 的 配置 ,而 且 很 可 
能 也 包括 cache 的 清理 。 


HH lockDeache 在 D-cache 中 锁定 一 块 数据 ;类 似 的 ,函数 locklcache 在 1-сасће th dti 
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定 一 个 代码 块 。 

执行 cache 锁定 的 软件 本 身 必 须 被 存放 在 不 可 cache 的 (noncached) 主 存 中 。 锁定 在 
cache 中 的 代码 和 数据 必须 被 存放 在 可 cache 的 (cached) 主 存 中 。 被 锁定 在 cache 中 的 代码 
和 数据 未 能 存在 于 cache 中 的 其 它 地 方 ,这 一 点 非常 重要 。 换 句 话说 ,如 采 cache 中 的 内 容 
未 知 , 那 么 在 装载 之 前 应 先 清除 cache。 如 果 内 核 使 用 的 是 回 写 Dcache, 那 么 应 清理 D 
cache。 一 瑟 代 码 和 数据 被 装载 刘 cache, 就 可 以 重新 使 能 中 断 了 。 

X T AZ lockDeache 和 函数 locklcache, 这 里 提供 了 3 种 不 同 的 实现 代码 ,因为 根据 体 
系 结构 方式 的 不 同 ,在 cache 中 锁定 代码 有 3 种 不 同 的 方法 。 第 1 种 锁定 代码 和 数据 的 方 
法 使 用 了 路 (way) 寻 址 技术 ;第 2 种 使 用 了 一 组 锁定 位 (iock bi ;在 第 3 种 方法 中 ,结合 使 
用 了 特殊 分 配 命令 和 读 取 主 存 中 特定 块 这 2 种 方法 ,来 锁定 代码 和 数据 。 

表 12.9 列 出 了 实现 lockDcache 和 locklcache 的 3 个 例子 ,使 用 的 方法 以 及 相关 的 
ЯЯ. 
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ARM920T, ARMS25E] - S, ARM940T, 
ARMS?948E - 5, ARMIO22E, ARMIO26E[ - Š 


Їй (кау) ai 


Йй 12.8 П ii Clock bits) 


特殊 分 配 命令 


ARM926EJ - S, ARM1026E] - S 





Xscale 
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12.6.2 通过 增加 路 索引 来 锁定 cache 


ARM920T, ARM926EJ - S, ARM940T, АКМ946Е - S, ARMIO22E 和 ARM1026EJ - 
S 使 用 路 和 组 索引 寻 扯 来 实现 锁定 .2 个 CP15;c9;c0 寄存 器 中 包含 12. 3, 2 小 节 中 拭 述 的 
琅 弃 者 计数 甘 的 复位 寄存 器 (reset registers)。 这 2 个 寄存 器 中 的 一 个 控制 着 Tcache, 另 一 
个 控制 D-ecache。 这 些 寄存 器 被 用 作 在 一 个 路 中 选择 用 来 锁定 数据 和 代码 的 cache fr. 

写 到 CP15.c? HERPES ELI ЕЕ УРЕ f {И victim reset value) , B| 1 £ # 
者 计数 器 的 值 增 加 到 超出 内 核 中 路 的 数目 时 ,丢弃 者 计数 器 被 复位 的 值 。 系 统 上 电 时 ,复位 
值 为 0, 只 有 当 cache 中 的 某 一 部 分 被 用 作 锁 定时 ,复位 值 才 由 软件 改变 。 当 cache н Ж 
一 部 分 被 用 作 锁 定时 ， 可 用 cache 行 的 数量 随 被 锁定 的 cache 行 数 的 增加 而 减少 。 读 此 寄 
存 器 ,将 返回 当前 的 丢弃 计数 复位 值 。 读 和 写 这 2 个 寄存 髓 的 МЕС 和 MCR 指令 
А38 12.10, 
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* 12.10 通过 访问 路 ,在 cache 中 锁定 数据 的 命令 


$*o4 МЕС 和 MCR 指令 IO AE 





ARMS20T, ARM328EJ — S, ARM940T, 


D-cach МЕС g15,0, Rd, c9,e0,0 
Ж D cache Е P ° ARM946E—S,ARM1022E, ARMI026E] — S 


Seuop2 ZL 


E D-cache WEE MCR pl5,0, Rd.có,c0,0 — ARM920T, ARM328E] - S, ARMB40T, 
ARMB48E - S, ARMIO22E, ARM1026EJ - 5 


iE Lcache 锁定 基 МЕС p15,0,Rd,c9,rü.1] — ARMO20T, ARMO926E] - S, ARMS40T, 
ARM946E - S, ARMIO22E, ARM1026E] - 5 


E Leache Е МСК р15,0,84,с9,с0,1 — ARM920T, ARM926EJ] - S, ARM940T, 
АКЕМЕ - S, ARMIO22E, ARM1026E] - Š 





当 读 / 写 锁 定 基 地 址 时 ,对 于 不 同 的 处 理 器 来 说 ,MRC 和 MCR 指令 使 用 的 内 核 寄 存 器 
Rd 的 格式 稍 有 不 同 。 图 12. 12 所 示 为 使 用 这 些 指令 的 处 理 器 的 处 理 器 内 核 Rd 寄存 器 格 
式 。 为 保证 命令 正确 地 执行 ,一 定 要 使 Rd 寄存 器 的 格式 与 图 12. 12 所 示 一 致 。 





АКМУ20Т,АКМ1022Е 

31 2625 0 

Low [700 9 — 

ARMOS40T 

31 6 5 0 
EE us 
ARM946E-8 





图 12.12 iib io Hk iE cache Е ИИВ CPIS c ЖИН 


将 指令 锁定 在 cache 中 还 需要 一 条 特殊 的 装载 命令 。 该 命令 复制 与 cache 行 相同 大 小 
的 主 存 块 到 Т-сасһе 的 cache 行 中 。 该 命令 以 及 Rd 害 存 器 在 该 指令 中 使 用 的 格式 见 
表 12. 11 和 图 12.13, 
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AB LE RETE 1-сасһе fi 






* 12.11 £r [cache 中 锁定 cache fT 





ARMS820T, ARM922T, ARM92BFE] ~ $, 
ARMS40T, ARMS48E - 5, ARM1022E, 
АКМ1026ЕЈ - 5, StrongARM, XScale 


MER p15,0, Rd c7, 013,1 









3l 4 3 0 


ООО = T|] 
D 


ARM920T, ARM922T,ARM926EJ-S,ARM1026EJ-S 
31 


ЛБ ИНЕ: SBZ 
ARMO946E-S 


5 
ОООО киы [и 


图 12.13 在 cache rh IE cache ТЕ} CP15:e7 :el3 





[0112.7] 这 个 例 程 的 第 一 部 分 定义 了 在 宕 CACHELOCKBYWAY 中 使 用 的 寄存 
和 项。 在 宏 的 定义 中 也 使 用 了 头 文件 cache h 中 的 常量 ， 
宏 的 第 一 行将 地 址 (adr) 调 整 成 cache 行 地 址 。 接 下 来 的 3 行 根 据 代 码 的 字 节 数 决定 
承载 代码 所 需要 的 路 数 。 然 后 由 CP15: c9: c0 中 读 取 Leache 和 D-cache 的 当前 被 孟 弃 性 


接 下 来 的 几 行 代码 做 错误 检测 ,主要 测试 cache 是 否 过 载 (cverfilling) 以 及 即将 装 裁 的 
代码 长 度 是 否 为 零 。 
在 ARM940T 和 和 ARM946E-S 中 锁定 代码 和 数据 时 ,在 将 一 块 内 存 数据 锁定 在 cache 
行 中 以 前 ,必须 把 锁定 位 (lock bit) B (ir, 本 例 程 中 的 下 一 条 指令 就 是 将 锁定 位 置 位 ,并 将 
数据 写 回 到 СРІ5,09,00 寄存 器 。 


在 此 ,代码 使 用 了 垦 套 的 逢 环 :外 面 的 大 寿 环 选择 路 ,里面 的 小 特 环 在 一 个 路 中 不 断 增 


à 





加 cache 行 地 址 ，。 
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在 这 2 个 循环 的 中 央 , 使 用 预 取 指令 或 者 装载 数据 命令 在 cache 存 情 器 中 锁定 一 个 
cache 行 。 为 了 锁定 指令 , 宏 对 一 个 特殊 的 CP15:c7:c13 寡 存 器 执行 写 人 操作 ,从 主 存 中 预 
装载 代码 段 。 为 了 锁定 数据 ,只 须 使 用 LDR 指令 读数 据 即 可 。 

如 果 内 核 为 ARM940T 或 АКМ946Е - S, 那 么 宏 退 出 返回 时 须 清除 СР15:с9:с0 寄存 
器 中 的 锁定 位 ， 对 于 所 有 的 ARM 内 核 , 宏 在 锁定 的 代码 莉 数 据 之 后 将 丢弃 者 指针 指向 下 


一 个 路 。 
IF (CPU) = "АЕМО20Т" ILOR: À 
(CPU) = TARKO22T" LOR: V 
(CPU) = "ARMO40T" :LOR À 
(CPU) = "ARMS4GE ~ S" :ТЮВ; V 
(CPU) = "ARM1022E" 
EXPORT lockDCache 
EXPORT lockICache 
INCLUDE cache. h 
adr EN Ó 1 代码 和 数据 的 当前 地 址 
size RN i cache ££ 4E К sz i d 
nw RN 1 ;存储 器 中 的 路 数 
count RN 2 
tup RN 2 ;临时 寄存 给 
tmpl RH 3 LESE SEE RE 
сэ} RN 12 ;CP15,c9 TF Z 
MACRO 
CACHELOCKBYEAY $ op 
BIC adr, adr, (1 << CLINED-1 1 调整 地 址 为 cache 行 地 址 
LDR tap, = (1 << SWAY) - 1 jacratch = КА 
TST size, tmp ЕЖЕНИН? 
MOV IM, Size, lsr {SWAY Dese qid eR RE 
ADDNE пм, nw, 1 ;如 果 有 碎片 , 则 路 数 加 1 
CHE w, #0 没有 锁定 请 求 
BEQ ЖЕТ? 


ТЕ" Š op” = "Icache" 


;退出 并 返回 丢弃 者 基 


$9u2DO zl 
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МЕС р15, 0, c8£, cB, cO, 1 
ENDIF 
IF "$ ор" = "Dcache" 

МЕС pi5, 0, c9£, c9, с0, 0 
ENDIF 
AND СОЕ, СОҒ, tmp 
Арр tmp, cOf, nw 
СИР tmp. # (1 << NWAY) -1 
MOVGT r0, 划一 i 
BGT % ЕТІ 


;获取 I-cache 的 丢弃 者 


;获取 D-cache HERE 


:屏蔽 高 位 c9f = victin 
;temp = ZFA + 路 计数 值 
> АНЕ ? 

;如 果 路 数 过 多 , 则 返回 -1 
;错误 ; cache Brad H 


IF (CPU) = "ARMS40T" ,LOR; (CPU) = "ARM946E – S" 


ORR c9f, сої, #1 << 31 
ENDIF 


IF "$ op" = "Icache" 


HCR pi5, 0, c9F, c9, c0, 1 
ENDIF 
IF "$ op" = "Dcache" 

MCR pi5, 0, сЕ, c9, cO, 0 
ENDIF 
MOV count, # (1 << НЕТ) - 1 


IF " $ ор" = "Icache" 


ЮЕ р15, 0, adr, c7, 513, 1 
ADD adr, adr, #1 << CLINE 
ENDIF 
ТЕ " $ ор" = "Dcache" 
LDR tmpl, [adr]. #1 << CLINE 
ENDIF 
SUBS count, count, #1 
BNE & ВТ5 
ADD соғ, cOf, #1 << ISWAY 
5085 пи, n, {1 


:将 cache 设 为 锁定 模式 


ЖЕ 


;设置 丢弃 者 


:装载 指令 cache fT 
icache 行 地址 加 1 


:装载 数据 cache 17 


E 3-8 38 tl 1 
Bii d E 1 
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BNE $ ET10 :重复 路 的 数目 ho 
2 С) 
IF (CPU) = "ARM940T" .LOR. [CPI] = "ARM946E - S" Q 
BIC rü, сЕ, #1 << 31 1 清除 镇 定位 ,并 将 丢弃 者 数值 赋值 给 r0 mI 
ËNDIF 9 
IF " $ op" = "Icache" 
MCR pl5, 0, r0, c9, cO, 1 3-4 EX TEE. 
ENDIF 
IF " $ op" = "Dcache" 
MCR p15, 0, го, c9, сб, 0 ;设置 丢弃 者 计数 恬 
ENDIF 
1 
MOV pc, lr 
MEND 
lockDCache 
CACHELOCKBYWAY Dcache 
lockICache 
CACHELOCKBYWAY Icache 
ENDIF 


最 后 ,2 次 使 用 宏 ,创建 lockDCache 和 lockICache 函数 ， 


12.6.3 使 用 锁定 位 锁定 cache 


АКМЭ26Е] - S RI ARM1026EJ - S 使 用 一 组 镇 定位 在 cache 中 锁定 代码 和 数据 ,如 
12. 14 所 示 。 这 两 种 处 理 器 的 CP15:e9 指令 使 用 不 同 的 Rd 格式 , 见 表 12.12， 0—3 四 个 
位 4biD 分 别 代表 了 在 两 种 处 理 器 的 4 路 组 相 联 cache 中 的 4 个 路 。 ШЕННЕ, ЯА, 
它 所 对 应 的 路 就 被 镇 定 。 对 于 Dcache, 锁 定 了 数据 ;对 于 工 cache, 则 锁定 了 代码 。 被 锁定 
的 路 中 的 cache 行 , 直 到 被 解锁 之 后 才能 够 被 替换 。 将 工 位 中 的 其 一 一 位 清 零 ,就 可 以 解锁 相 
应 的 路 。 这 种 锁定 cache 的 方式 使 系统 代码 可 以 单独 选择 锁定 和 解锁 的 路 ， 
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ARM926EJ.S.ARMI026EJ-S 
31 16 15 4 3 0 


OO 
B 12,14 局 用 锁定 位 锁定 cache 时 的 CPIS: c9 寄存 髓 格式 
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表 12.12 使 用 锁定 位 锁定 cache 的 CP15:c9 dp 

Ф + МЕС 和 MCR 38 4. 

读 beach 锁定 页 寄存 器 МКС pl5,0, 4,с9.с0,1 

读 Prearhe WEISE МЕС p15.0, а, сӣ, с@,0 

33 Feache 铁定 页 寄存 器 MCR pl5.0, Rd.c8,c0,1 

T О-сасће 锁定 页 寄 看 器 МСЕ р15,0, Rd.c8,c0,0 

装载 基 一 地 址 的 代码 cache 行 МСЕ pi5,0, Rd,c?.cl3,1 


这 种 单独 选择 锁定 路 的 功能 ,使 系统 中 代码 的 锁定 种 解锁 更 加 容易 。 本 小 节 中 的 示例 
程 席 使 用 了 与 其 它 带 cache 的 内 核 相 条 的 锁定 数据 的 程序 接口 。 

ARM926EJ - S #1 ARMIO26E] - S H lockDCache 和 lockICache 示例 程序 有 相同 的 输 
人 参数 。 但 是 代码 的 大 小 受 路 的 最 大 尺寸 的 限制 ,并 且 可 以 重复 调用 3 次 。 在 本 小 节 的 例 
子 中 ,锁定 位 3 通常 为 cache 专用 的 。 这 不 是 处 理 器 硬件 的 限制 ,而 仅仅 是 为 了 适应 程序 接 
口 的 需要 ,对 过 程 调用 做 出 的 艰 制 。 

如 果 size 参数 是 1 字 节 或 者 更 大 ,那么 示例 程序 返回 被 锁定 路 的 锁定 位 (代位 )。 如 果 
size 参数 为 0, 那么 程序 返回 下 一 个 可 用 的 路 的 锁定 位 。 如 果 没 有 可 锁定 的 路 ,那么 将 返 
Е 8, 

[И 12. 8] 通过 名 为 CACHELOCKBYBIT [Ж P= #E lockDCache 和 lockICache if 
Ж. Ж CACHELOCKBYBIT 也 使 用 了 cache. h 头 文件 所 定义 的 常数 。 

宏 首 先 检查 cache 中 将 要 被 锁定 的 字 节 数 是 否 为 零 ; 接 下 来 它 分 析 承 载 这 些 代 码 所 需 
要 的 cache 行 数 ,并 调整 地 址 adr 到 cache 行 地 址 。 

如 果 程 序 要 在 D-cache 中 锁定 数据 ,那么 它 就 会 读 锁定 寄存 器 CP15:c9,c0:0 的 值 ;如 果 
要 在 上 eache 中 锁定 代码 ,那么 就 会 读 锁定 寄存 器 CP15:cg,e0:1 的 值 。 结 果 被 放 在 内 核 oof 
ЖР. ЕШШ ЕЛКЕ tmp 寄存 器 中 ,以 备 以 后 使 用 。 

IF (CPU) 2"ARM926E]- $8" ‚108; A 
{CEU} = " ARM1026EJ - S" 
EXPORT lockBDCache 
EXPORT lockICache 
EXPORT bittest 
INCLUDE cache. h 


adr RN Q ; 找 码 和 数据 的 当前 地 址 
Size ЕН 1 FRETA 
tmp RN 2 scratch ЖЖ 











tmpl 
одї 


RN 3 
RN 12 


MACRO 
CACHELOCREYLBIT Š op 


ADD size, adr, size 

BIC adr, adr, # (1 << CLINE) -1 
MOV tmp, # (1 << CLINE) - 1 

TST size, tmp 

SUB Size, Size, adr 

MOV Size, size, lar 4f CLINE 
ADDNE Size, size, #1 

СМР Size, (1 << МЕТ) -1 

ВНІ & FTI 


IF “$ор = "Icache" 


МАС p15, 0, c9£, c9, c0, 1 
ENDIF 
IF " $ op" = "Deache” 

HRC pl5, 0, c8£, c9, cO, 0 
ENDIF 
AND tmp, c8£, # Oxf 
MOV tnpl, #1 
TST COf, tmpi 
MOVNE tmpl, tmpl, LSL #1 
TSTNE СЁ, tnpi 
MOVNE tmpl, tmpl, LSL #1 
TSTNE c9f, tmpl 
HOVNE tmpl, tmpl, LSL #1 
BNE Ж FTI 
CHP aize, #0 
BEQ % ЕТІ 
MVN tmpl, tmpi 
ARD tmpl, tmpl, # 0х? 
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;scratch 寄存 办 
;CP15;c9 寄存 部 的 格式 





SƏuSDO zi 


isize= 末 地 址 (当前 地 址 + 存储 器 字 节 数 》 
;与 CLINE 对 齐 

;临时 CLINE 屏蔽 

;CLINE 末尾 有 碎片 ? 

; 补 上 对 齐 字 节 数 

;转换 大 小 2 # CLINE 

RE fp CLINE 

emu? 

B B ЗЕБ LE SERE Ж 


;获取 I-cache 的 锁定 位 


;获取 ?cache 的 锁定 位 
435 


itap= 工 位 的 状态 
:测试 镇 定位 0 
:测试 锁定 位 1 

+ 测试 锁定 位 2 

: 销 误 : 没 有 可 取 的 了 路 
‚Жжж 


;退出 返回 size- 0 


;选择 工 位 
;清除 寄存 器 中 工 位 以 外 的 其 它 位 


ARM IR ATAS S 





BIC c9f, c9f, E Oxf ;构造 c9f 
ADD СОГ. caf, tmpl 


IF "$ ор" = "Icache" 


I 
AJ 
< 
© 
® 
(D 
3 MCR pi5, "P СЇ, c3. со, 1 ;设置 锁定 1 真 
Jg ENDTF 
Q IF m 5 op" z "wache" 
ы MCR р15, 0, c39F, c9, cO, 0 SUR UE DI 
Ü0 ENDIF 
Ф 5 
ur 
бу IF"$op'-"Icache" 
Š MCR р15, 0, adr, c7, c13, 1 ;装载 指令 cache fT 
名 ADD adr, adr, #1 << CLINE cache +T hk Ji 1 
ENDIF 
IF "$ op” = "Dcache" 
LDR tupl, [adr]. #1 < CLIE ,装载 数据 cache 行 
ENDIF 
SUBS Size, size, ji :Cline= ~ 1 
BNE $ BTS ;在 各 cache 行进 行 循环 
436 HVN tmpi, c9£ 3 锁定 选中 的 工 位 
AND tmpl, tmpl, Ф 0х# ЕЕЕ L fi 
ORR tmp, tmp, tupl ;上 与 原 上 位 会 并 
BIC СФЕ, c39f, {бу ; 清 零 所 有 的 虐 位 
Арр c9f, c9f, tup ;设置 9f 的 工 位 


ТЕ п 5 ор" = "Тсасһе" 


MCR pl5, 0, adr, c9, c0, 1 ;设置 I-cache 锁定 位 
ENDIF 
IF "$ ap" = "Dcache" 
MCR р15, 0, adr, c9, сб, 0 E OW D-cache 锁定 位 
ENDIF 
1 
MOV rü, tmpl + 返回 分 配 的 路 
MOV pe, ir 





lockDCache 
CACHELOCKBYLBIT Dcache 
lockICache 
CACHERLOCKBYLBIT Icache 
ENDIF 
接 下 来 的 7 行 检查 c9f 寄存 器 ,以 决定 是 否 有 一 个 路 用 来 存储 数据 和 代码 。 如 果 没 有 ， 
则 退出 该 例 程 ;如 果 有 ,出 在 接 下 来 的 4 行 中 改变 c9f 寄存 器 的 值 , 以 选择 用 于 锁定 数据 的 
路 。 接 着 c9f 寄存 髓 被 用 在 MCR 指令 中 来 选择 路 。 
这 样 ,程序 进入 把 锁定 的 代码 和 数据 填 满 cache 的 循环 。 如 果 要 在 1-сасће 中 锁定 我 
码 , 则 将 执行 预 取 Leache 行 命令 ;如果 锁 定 外 部 存储 器 中 的 数据 , 则 程序 将 清理 、 ROCA 
D-cache 中 装载 新 的 cache fT. 
宏 在 退出 返回 时 将 所 保存 的 原来 的 cache 锁定 位 与 新 镇 定 的 页 融合 ,根据 结果 创建 新 
的 c9f SETESE. ETE MCR 指令 中 使 用 СОГ 寄存 器 来 设置 CP15;c9;c0 cache, 锁 定 寄存 器 的 


LÁ. 
最 后 ,2 КЕНЕ CACHELOCKBYBIT 创建 lockDCache 和 lockICache ВЖ, 


12.6.4 在 Intel XScale SA – 110 中 锁定 cache {F 


Intel XScale 处 理 器 也 有 在 cache 中 锁定 代码 和 数据 的 能 力 。 这 要 求 使 用 一 组 CP15， 


”09 cache 锁定 命令 , 见 表 12,13。CP15;c9:c2 寄存 器 的 格式 见 图 12.15， 另 外 还 须 使 用 在 例 


12. 5 中 清理 D-cache 时 用 的 CP15:c7 ,分配 Deache Tt BAALE 12. 7, 
Я 12.13 在 Intel XScale 处 理 器 cache 中 锁定 长 码 和 数据 的 取 和 分 配 命令 





+ + МЕС 和 MCR 指令 

ЕНЕ Leache Ff MCR рі5,0,Е4,с9,с1,0 
М 5 cache MCR р15,0,84,9,с1,1 
读数 据 cache 锁定 寄存 器 МЕС p15,0, Rd, c9,c2,0 
写 数据 cache 情 定 寄存 器 并 年 位 /请 替 镇 定 模式 МСЕ p15,0, Rd, c9,c2,0 
ЖИЙ D-cache MCR p15,0, Rd, c9,c2,1 


_————————<—————-—————ЄӨї үг гї —-—- 7 S RR 


在 Intel XScale 处 理 器 中 ,eache 中 的 每 个 组 都 有 一 个 轮转 指针 。 每 当 有 新 的 cache 行 
在 cache 中 被 锁定 时 ,该 指针 顺序 增加 。 在 一 个 组 的 32 个 cache 行 中 ,可 以 有 最 密 28 个 
cache 行 被 锁定。 车 在 一 个 组 中 试图 锁定 超过 28 个 cache 行 , 则 会 使 该 cache FRAME 
不 能 在 cache 中 被 锁定 。 
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图 12.15 D-cache 锁定 寄存 器 CP15:c9:c2 格式 


Intel XScale 处 理 器 有 2 种 方法 在 D cache 中 锁定 数据 ,第 1 种 方法 内 是 简单 地 将 主 在 
位 置 锁定 在 D-cache 中 ;第 2 种 方法 使 用 分 配 cache 行 命令 ,将 cache 中 的 一 部 分 配置 成 数 
i RAM, 这 样 ,这 部 分 分 配 的 cache 没有 被 初始 化 ,需要 处 理 器 内 核对 它 执行 写 操作 来 包 会 
有 效 数 据 。 在 这 里 的 例子 中 将 存储 器 初始 化 为 零 。 


СИ 12.91 例 程 的 第 一 部 分 定义 了 宏 CACHELOCKREGION (fff iit SEE SR. Xp 
也 使 用 了 头 文件 cache. h 中 定义 的 常量 。 

宏 首 先 调整 地 址 adr 到 cache 行 地 址 ,并 决定 承载 代码 所 需要 的 cache 行 数 。 

MERE D-cache 中 锁定 数据 ,那么 例子 中 接 下 来 的 几 行 代码 排 空 写 缓冲 器 ,并 把 D 
cache 解锁 。 在 D-cache 中 锁定 数据 ,必须 在 锁定 一 个 D-cache 行 之 前 使 用 解锁 命令 。 宏 通 
iii] CP15:c9:c2,0 寄存 器 中 写 人 1 来 将 该 位 置 位 。 

这 时 ,程序 进入 循环 ,向 cache 中 填充 锁定 的 数据 和 代码 。 如 果 程 序 要 在 Teache 中 镇 
定 代码 ,那么 将 会 执行 锁定 Leache 行 命令 ;如 果 要 锁定 来 自 外 部 存储 器 的 数据 ,那么 程序 将 
清理 cache, 清 除 cache 并 向 D-cache 中 装载 新 的 cache 行 ; 如 果 要 创建 数据 RAM ,那么 程序 
会 分 配 一 个 D-cache 行 ,并 且 排 空 写 缓冲 髓 ,以 防止 试图 锁定 超过 28 组 数据 而 引起 的 错误 ， 
接 下 来 使 用 STRD 指令 将 cache 行 初始 化 为 0. 

如 果 是 锁定 D-cache 中 的 数据 ,那么 宏 在 返回 退出 时 ,把 cache 装载 CP15 寄存 器 上 的 
锁定 位 清 零 。 


IF 【CPU =”ХЗСАТА" 
EXPORT lockICache 
EXPORT lockDCache 
EXPORT lockDCacheRAM 
INCLUDE cache. h 


adr RN Ü i 已 码 和 数据 的 当前 地 址 

gize RN 1 VERUS E T E 

tmp RN 2 ,CPU15,c9.c2 3E TE BE /STRD rego 
tmp] АНЗ +LPR 使 用 的 临时 寄存 器 /STRD regl 


MACRO 
CACHELOCKREGION $ ор 


IF 


MOV 


CPHAIT 

MOV 
ENDIF 
IF 

MOV 
ENDIF 


IF 
MCR 
AUD 

ENDIF 

IF 
MCR 
MCR 
LDR 

ENDIF 


IF 
MCR 
MCR 
STRD 
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№2 
size, adr, size isize= 未 地 址 С) 
adr, adr, (1 << СИНЕ) - 1 ;与 CLIME 对 齐 9 
tmp, (1 << CLINE) -1 ;临时 CLINE 屏蔽 Pi 
size, tmp CLINE 末尾 有 碎片 ? д 
size, size, adr КЕЕ ЕН 
size, size, lsr Ti CLINE ;转换 大 小 2 CHINE 
size, size, #1 ШЛ CLINE. UERR H 
size, {0 ;无 锁定 请 求 
% ЕТІ :退出 返回 size = 0 
"$op = "Dcache" ШВ, " $ op" = "ГсасһеВАМ" 
pl5, 0, adr, c7, с10, 4 HEEF 
tmp, #1 
р15, 0, tmp, c9. c2, 0 ;解锁 数据 cache 
tmp, #0 ;个 数字 清寺 
" $ ор" = "DcacheRAM" 
tmpl, #0 :初始 化 奇数 字 为 0 

438 
I! $ op" = +Teachen 
р15, 0, adr, c9, c1, 0 ;锁定 I-cache fT 


adr, adr, #1 << СНЕ 


n 5 ор" = "Deache" 
p15, 0, adr, c7, c10, 1 ;清理 带 脏 位 的 cache fT 
015, 0, adr, c7, сб, 1 ;清除 D-cache ff 


tmpl, [adr], #1 << CLINE ?装载 数据 cache f; 


" $ op" = "сасһеВАн" 
p15, 0, adr, c7, c2, 5 ;分 配 D-cache f 

pl5, 0, adr, c7, c10, 4 SESS 

tmp, [айг], #8 ;init 2 zero & adr = +2 
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STRD tmp. [adr], #8 ;init 2 zero & adr- +2 
STRD tmp, [adr], #8 ;init 2 zero & adr = +2 
STRD tmp, [adr], #8 ;init 2 zero & adr = +2 

ENDIF 

SUBS size, size, #1 

BNE & BTS 


IF" $ op" = "Deache" .LOR; " $ op" = "DeacheRAM" 


MCR рі5, 0, adr, c7, c10, 4 + S EE nh 
MOV tmp, #0 
MCR pi5. 0, tmp, c9, c2, 0 $ data cache, tmp = 0 here 
CPWATT 
ENDIF 
1 
BOV ro, #0 
HOY pe, lr 
MEND 
lockICache 
CRCHELOCKREGION lcache 
lockDCache 
CACHELOCKREGION Leache 
lockDCacheRAM 
CACHELOCKREGION DcacheRAM 
ENDIF 


最 后 ,3 次 使 用 宏 创建 lockICache,lockDCache 和 lockDCacheRAM PA, 


12.7 cache 与 软件 性 能 





遵循 一 些 简单 的 规则 ,将 有 助 于 利用 cache 的 结构 优势 来 编写 代码 ， 

存储 器 系统 中 的 许多 区 域 ,通常 都 把 cache 和 写 缓冲 器 两 者 都 使 能 ,从 而 最 大 限度 地 利 
用 cache 体系 结构 的 优点 来 缩短 平均 访 存 时 间 。 有 关 存储 系统 的 不 同 部 分 .cache MEAG 
缓冲 器 操作 的 更 多 信息 ,可 参见 后 续 章 节 。 如 果 使 用 带 有 存储 器 保护 单元 (MPU) 的 ARM 
处 理 器 内 核 , 则 详细 内 容 可 参考 第 13 章 ! 如 果 使 用 带 有 存储 器 管理 单元 (MMU) 的 ARM 处 
BRAR MTSE 14 Ж, 


如 果 把 存储 器 映射 的 外 设 配置 成 使 用 cache 或 写 缓冲 器 ,那么 通常 会 产生 问题 ， 所 以 
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最 好 将 它们 配置 成 不 使 用 eache, 并 且 不 使 用 与 缓冲 回 , 这 就 强制 处 理 器 在 每 次 访问 时 都 去 
读 外 设 端口 ,而 不 是 从 cache 中 读 取 陈旧 的 信息 ， 

应 尽 可 能 将 经 常 访问 的 数据 顺序 存放 在 主 存 中 ,因为 从 主 存 中 获 记 一 个 新 的 数据 的 代 
价 等 同 于 填充 整个 cache 行 。 如 果 一 个 cache 行 中 的 数据 在 被 替换 出 cache 之 前 只 使 用 过 
一 次 ,那么 系统 的 性 能 就 出 较 低 。 应 尽 可 能 地 把 数据 放 在 同一 个 cache 行 中 ,以 提高 cache 
命中 率 , 因 为 这 样 可 以 充分 利用 局 部 性 原理 ,从 而 形成 更 多 的 cache 命中 。 最 重要 的 一 点 
是 ,要 在 主 存 中 把 一 个 共用 售 程 所 访问 的 数据 尽量 紧 靠 在 一 起 。 

应 尽 可 能 组 织 数据 ,使 读 . 处 理 和 写 都 在 cache 行 尺寸 的 块 中 完成 ,并 使 主 存 块 地 址 的 
低位 与 cache 行 的 起 始 地 址 匹配 。 

最 通用 的 做 法 是 使 代码 尽量 小 ,并 将 相关 的 数据 分 组 放 在 一 起 ， 代 码 尺寸 越 小 ,eache 
效率 越 高 。 | 

在 cache 系统 中 ,使 用 链表 会 降低 程序 性 能 ,因为 查 表 会 导致 很 高 的 cache 失效 率 。 与 
从 顺序 数组 中 访问 数据 相 比 , 从 链表 访问 数据 ,程序 将 以 更 加 随机 的 形式 取 数 据 。 这 一 点 在 
查找 任何 无 序 表 时 都 须 考虑 。 选 用 何 种 数据 查找 方法 ,可 能 需要 对 系统 性 能 进行 分 析 。 

然而 ,除了 编写 高 效 使 用 cache 的 代码 之 外 ,不 要 忘记 还 有 许多 其 它 的 因素 在 改善 系统 
性 能 上 有 更 大 的 必用 ,高 效 的 编程 技巧 详 见 第 5 章 和 第 6 章 。 
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12.8 总 结 


441 

cache 是 一 个 放置 在 处 理 器 各 主 存 之 间 的 小 容量 高 速 存 赃 器 阵列 。 它 是 一 个 存储 部 分 
最 近 访 问 的 主 存 内 容 的 缓冲 。 相 北 于 系统 存 赃 器 ,处 理 嚣 在 可 能 的 情况 下 更 优先 使 用 cache 
存 情 器 ,以 改善 系统 的 平均 性 能 。 

与 缓冲 器 是 一 个 位 于 处 理 器 内 核 与 主 存 之 间 的 非常 小 的 先进 先 出 (FIFO) 存 储 器 , 它 可 
以 把 处 理 器 内 核 与 cache 存储 器 从 低速 的 主 存 写 操作 中 解脱 出 来 。 

己 衣 烃 怖 形 说 明 , 程 序 在 执行 过 程 中 会 频繁 运行 小 范围 的 循环 代码 ,而 这 些 代码 会 对 孝 
据 存储 器 中 的 局 部 数据 反复 访问 。 它 解释 了 为 什么 使 用 带 cache 的 内 核 后 ,系统 的 平均 性 
能 会 显著 改善 

ARM 组 织 (ARM community) 使 用 了 许多 条 目 来 描述 cache 体系 结构 的 特性 。 为 了 方 
便 , 这 里 给 出 了 表 12. 14, 它 列 出 了 当前 所 有 带 cache 的 ARM 内 核 的 特性 ， 
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表 12.14 3B cacheARM 内 核 的 特性 





. cache 41 БЕН Eck 
^os as M M nan 相 ж & x cache #Ж K h word 
ARMT20T 统 一 5 4 4— way EH m 8 
ARM746T a 一 4 或 8 4 4- way Ж Ж 是 174 B 
ARM920T 分 Bi 18/16D—-I 8 64 – way É 辑 в 16 
ARM922T 分 B B/8D4I 8 64 - way E # жі 15 
ARM940T 分 B 4/404 4 64 - way XS 辑 是 1/64 8 
ARM926EJ-S Ж Ñ 4—128/4—128D4I 8 d- way 3 辑 R1 16 
ARMS46E - 5 分 É 4—128/4—128D4-I 4 4 - way EB RIA 4 
ARM1022E 分 Bb 16/1601 8 64 – way ES H Riu 18 
ARMIOZE]-S 分 Ë 4—128/4—128D4HI 8 4-way $ B HIA 8 
Intel StrongARM J M 16/16D+I 4 32 – way gu sS 32 
Intel XScale A Ë 32/32D—I 8 32 way Ж Ж 21/32 32 

2D 8 2 - way E y F 





cache fT Ж cache 的 基本 组 成 单位 ,包含 3 部 分 :目录 存储 段 (directory store) .数据 项 有 自 
(data section) 和 状态 信息 段 (status information), cache  Ж(сасһе -tap 是 一 个 目录 记录 
项 ,指示 一 个 cache 行 是 从 主 存 中 的 什么 地 方 被 装载 的 。 在 cache 中 通常 有 2 个 状态 位 , 育 
ЖО ЯШЕЛ. 。 当 相关 的 cache 行 包含 有 效 的 存储 器 内 容 时 , 育 发 伦 被 置 位 ; 当 cache 使 用 回 
写 策 略 并 且 有 新 的 数据 写 人 到 cache fr8] Ж ЛУ SUR I. 

cache 的 位 置 可 以 在 MMU нй 2 5, Н Ж cache RE SE cache Z^. IË cache 
被 放置 在 处 理 器 内 核 与 ММО Z B), de He ELM BE 2s ip Et ЖЕ. Е cache 被 放置 
在 MMU 和 主 存 之 间 ,使 用 物理 地 址 访问 代码 和 数据 。 

直接 映射 cache 是 一 种 非常 简单 的 cache 结构 ,每 一 个 主 存 地 址 都 对 应 惟一 的 cache 地 
Ж. ВВЕ cache ERRIRE”. J T BUD ERE A cache 分 成 容量 相等 的 较 小 单 
Ju, X Rh Л ЛК ERE Oway) 。 使 用 路 为 一 个 主 存单 元 在 cache 中 提供 了 对 应 的 多 个 存储 
位 置 。 这 种 cache 被 称 作 级 大 性 cache , 

内 核 总 线 的 体系 结构 决定 了 cache 系统 的 设计 。 汉 + 诺 依 曼 结 构 使 用 统一 cache 存储 
代码 和 数据 。 险 佛 结构 使 用 从 离 cache :一 个 cache 用 于 指令 , 另 一 个 cache 用 于 数据 。 

cache 蔡 换 策 略 决定 了 在 访问 cache 失效 时 , 哪 一 个 cache 行将 被 替换 出 cache, EUR 
策略 决定 cache 控制 器 使 用 什么 算法 在 当前 cache 存储 器 的 组 中 选择 一 个 cache fT. Bo 
中 作 震 换 的 cache Е Я, # cache 的 ARM 内 核 使 用 B Rh EF IR Ek ИИГЕ РЕ 和 











12 高 速 绥 冲 存储 器 cache 





ERE, 

向 cache "F5 RURA Pi Rh Ж: :如 果 控 制 器 只 更 新 cache 存储 器 , 称 为 癌 写 (writeback) 
策略 ;如 里 cache ЖЩ ЖЕ БЕ cache, УЫ XE fe BECA EE 5 Cwritethrough) 策略 。 

当 cache 失效 时 ,cache Et ill 8E E R 88 Fh R 8 zy Bü 1 38 cache fT ; BE ЛУ АП ЖЕТЕ 
据 出 主 存 中 读 出 时 分 配 cache 行 ; 写 分 配 策略 在 向 主 存 中 写 数 据 时 分 配 cache f. 

ARM fit ЧЖИ EE (clean) 表示 将 D-cache 中 的 数据 写 回 到 主 存 中 。ARM 使 用 术语 
Bush) 表示 使 cache rh BJ N S a (EBE), ` 

有 些 АКМ 内 核 提供 cache 锁定 功能 。 锁 定 允许 代码 和 数据 被 装载 到 cache, 并 被 标记 
AHER E їй. 

本 章 还 提供 了 一 些 示 例 代码 ,显示 了 如 何 清理 ,清除 cache, 以 及 在 cache 中 锁定 代码 和 
数据 。 
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一些 嵌入 式 系 统 使 用 多 任 荔 的 操作 或 控制 系统 。 在 这 种 系统 里 ,必须 保 让 正在 运行 的 
任务 不 破 雨 其 它 任务 的 操作 。 防 止 系统 资源 和 其 它 任务 受 非 法 访问 的 工作 条 为 保护 ,这 志 
是 本 章 将 要 讨论 的 主要 内 容 ， 

系统 资源 的 访问 控制 有 两 种 方法 :无 硬件 保护 (简称 无 保护 ;和 有 硬 件 保 护 ( 简 称 受 保 
护 )。 记 保护 的 系统 仅 靠 软 件 来 保护 系统 资源 ; 受 保护 的 系统 千 硬 件 和 软件 两 者 来 保护 系统 
资源 。 在 具体 的 榨 汕 系统 中 使 用 哪 一 种 方法 ,取决 于 她 理 器 的 性 能 和 该 控制 系统 的 需求 ， 

在 无 保护 的 钥 人 式 系 统 中 ,没有 专门 用 于 存储 器 和 外 围 设备 访问 控制 的 硬件 。 在 这 种 
系统 中 ,任何 一 个 任务 都 可 能 破坏 其 它 任 务 的 状态 ,因此 每 个 任务 在 访问 系统 资源 时 都 必须 
与 其 它 所 有 的 任务 进行 协调 。 当 一 个 任务 忽 路 其 它 任务 环境 的 访问 限制 时 ,这 种 协调 机 制 
可 能 会 导致 任务 失败 。 

这 里 是 无 保护 系统 中 可 能 出 现 的 一 个 任务 失败 的 例子 , 当 读 / 写 一 个 通信 用 的 串口 寄存 
ЖЕН ,如果 一 个 任务 正在 使 用 串口 , 则 它 没有 办 法 来 防止 其 它 任务 使 用 属 一 个 串口 。 因 此 ， 
震 可 成 功 使 用 该 串口 , 则 必须 通过 一 个 访问 该 串口 的 系统 调用 来 协调 。 但 使 用 这 些 调用 任 
务 的 非 授权 访问 ,很 容易 破坏 经 过 该 串口 的 通信 。 因 此 资源 的 不 合理 使 用 也 许 是 厅 可 吉 免 
的 ,或 者 说 它 本 质 上 就 存在 。 

相反 , 受 保 护 系统 有 专门 的 硬件 来 检测 和 限制 系统 资源 的 访问 。 它 能 保证 资源 的 所 有 
权 , 任 务 需要 遵守 一 组 由 损 作 环境 定义 的 .由 硬件 维护 的 规则 ,在 硬件 级 上 授予 监视 和 控制 
资源 程序 的 特殊 权限 。 受 保护 系统 主动 防止 一 个 酝 务 使 用 其 它 任 务 的 资源 。 因 此 使 用 硬件 
主动 监视 系统 比 协调 加 强 的 软件 例 程 ,提供 了 更 好 的 保护 ， | 

ARM 的 很 多 处 理 器 配备 了 有 效 保护 系统 资源 的 硬件 ,或 者 通过 存储 器 保护 单元 MPU 
(Memory Protection Unit) ,或 者 通过 存储 器 管理 单元 MMU(Memory Management Unit), 
ЖН MPU 的 处 理 器 核 是 本 音 讨 论 的 重点 , 它 对 一 些 由 软件 定义 的 区 域 提供 硬件 保护 ， 带 
有 MMU 的 处 理 器 核 是 下 一 章 讨论 的 重点 , 它 提供 硬件 保护 并 增加 了 虚拟 存储 器 功能 。 

在 受 保护 的 系统 中 ,主要 有 两 类 资源 需要 监视 ,存储 器 系统 和 外 用 设 备 。 ARM ЖЕ 
设备 通常 都 映射 到 存储 器 中 ,因此 MPU 就 使 用 同样 的 方法 来 保护 这 两 类 资源 . 

АКМ 的 MPU fit Hi Bl (region) 来 管理 系统 保护 。 区 域 是 与 一 个 存储 空间 相关 联 的 
一 组 属性 ,处 理 央 核 将 这 些 属性 保存 在 协 处 理 器 CP15 的 一 些 寄存 器 里 ,并 用 0~7 Ещ 
标识 每 个 区 域 ”。 

区 域 的 存储 器 边界 通过 两 个 局 性 进行 配置 ,起 始 地 址 和 大 小 。 大 小 可 以 是 4 KB—4 GB 
的 任何 2 HRA. 邹 外 ,操作 系统 可 以 为 这 些 区 域 分 本 更 多 的 属性 ,访问 权限 .eache 和 和 号 组 
ЖЕЖ. TERIS TOR DIEI US У: UR HEUS e] JE 2 + US S AR 38 UR 
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式 一 一 管理 模式 或 用 户 模式 ,还 有 一 些 附加 的 权限 。 区 域 还 有 控制 cache RIS ЖЕЛИ š 8 FS 
的 cache 写 策略 。 和 例如 ,可 以 设置 一 个 区 域 使 用 直 写 (或 称 写 直 达 法 ,writethrough) 策 略 访 
HEAR ,而 另 一 个 区 域 则 以 无 cache 和 无 写 缓冲 方式 操作 ， 

当 处 理 帮 访问 主 存 的 一 个 区 域 时 ,MPU 比较 该 区 域 的 访问 权限 属性 和 当时 的 处 理 器 
模式 。 如 果 请 求 符 合 区 域 访 问 标准 , 则 MPU 允许 内 核 读 ” 写 主 存 :如果 存储 器 请 求 导 致 存 
情 器 访问 违例 , 则 MPU 产生 一 个 异常 信号。 

异常 信号 被 传送 到 处 理 器 核 。 处 理 器 核 执 行 一 个 异常 向 量 ,然后 跳 转 到 异常 处 理 程序 ， 
以 响应 该 异常 信和 号。 异常 处 理 程序 可 以 判断 异常 类 型 为 预 取 指 或 数据 中 止 ,然后 根据 异常 
类 型 , 跳 转 到 相应 的 服务 例 程 。 

要 实现 一 个 受 保 护 系 统 ,控制 系统 对 主 存 中 的 不 同 块 定义 若干 区 域 。 一 个 区 域 可 以 被 
创建 一 次 ,然后 一 直 作 用 到 典 入 式 系 统 结束 ; 也 可 以 被 临时 创建 来 满足 一 个 特殊 操作 的 需 
要 ,随后 就 被 删除 。 下 一 节 的 主题 就 是 如 何 来 分 配 和 创建 区 域 。 


13.1 受 保护 的 区 域 


目前 有 4 种 ARM 核 包含 MPU; ARM740T, ARM940T, ARM946E - S 和 ARMI1026E] 
-S。ARM?740T, ARM946E - S fl ARMIO26E] - S 包含 8 个 受 保护 区 域 ;ARM940T 包含 
16 个 受 保 护 区 域 ( 参 看 表 13.1). 

ARM740T, ARM946E - S 和 ARM1026EJ - S 使 用 统一 的 指令 和 数据 区 域 一 一 指令 区 
域 和 数据 区 域 使 用 相同 的 寄存 器 进行 定义 ,这 些 寄存 器 设置 区 域 的 起 始 地 址 和 大 小 ,在 
ARMO946E - 5 fl ARMIO26E] ~S 中 ,为 指令 和 数据 访问 分 别 配 置 存储 器 访问 权 腿 和 cache 
策略 ;在 ARM740T 中 ,为 指令 和 数据 存储 器 分 配 相同 的 访问 权限 和 cache 策略 。 区 域 与 内 
BEB - WR SE (von Neumann) 结 构 还 是 险 佛 (Harvard) 结 构 无 关 。 每 个 区 域 通 过 0 一 ? 的 
号 码 来 标识 和 引用 。 

因为 ARM940T 采用 独立 的 区 城 来 控制 指令 和 数据 存储 器 ,所 以 可 以 为 指令 和 数据 区 
域 定 义 不 同 的 区 域 起 始 地 址 和 大 小 。 指 令 和 数据 区 域 的 分 离 导致 在 这 种 核 中 增加 了 8 个 区 
Hh. 虽然 在 ARM940T 中 标识 区 域 的 号 码 仍然 是 0~7, 但 是 每 个 导 码 对 应 有 两 个 区 域 , 一 
个 数据 区 域 和 一 个 指令 区 域 。 

有 关 区 域 的 一 些 属性 如 下 ， 


e 区 域 可 以 相互 重 闫 ，; 
e 每 个 区 域 都 分 配 有 一 个 优先 级 ,该 优先 级 与 分 配给 区 域 的 权限 无 关 ; 


e 当 区 域 重 释 时 ,具有 最 高 优先 级 的 区 域 的 属性 订 以 覆盖 其 它 区 域 的 属性 ,优先 级 仅 
作用 于 重 登 部 分 的 地 址 ; 





Із ”存储 器 保护 单元 MPU 





e 区 域 的 起 始 地 址 必须 是 其 大 小 的 倍数 ; 
e 区 域 的 大 小 可 以 是 4 KB~4 GB 的 任何 2 ЕЖ, BA FREI. 4 KB,8 KB, 
16 KB,32 KB,64 KB,…,2 GB,4 GB; 
e 访问 所 定义 区 域外 的 存储 器 将 产生 异常 。 如 果 是 内 核 预 取 指 令 , 则 MPU 产生 预 取 
指 中 止 异 常 ; 如 果 是 存储 器 数据 请 求 , 则 产生 数据 中 止 异常 。 
表 13.1 带 保护 单元 的 ARM 核 概要 


SHUN UOI]OƏIOId 人 IDUUBSIAN Є | 


ARM # 区 域 数目 指令 和 数据 区 域 是 否 分 离 指令 和 数据 区 域 配 置 是 否 分 离 
ARM740T 8 t б 
ARM940T 16 是 是 
ARM946E - S 8 8 是 
ARM1026EJ - S 8 否 是 
13.1.1 KE 


当 存储 空间 的 某 部 分 被 分 配给 一 个 以 上 的 区 域 时 ,会 发 生 区 域 重 到 。 重 从 区 域 比 非 重 
从 区 域 在 分 配 访问 权限 时 有 更 大 的 灵活 性 。 

作为 区 域 重合 的 一 个 例子 ,假设 有 一 个 小 的 舱 入 式 系统 , 它 有 256 KB 的 可 用 存储 空 
间 ,起 始 地 址 为 0x00000000, 现 在 须 保护 一 块 特权 系统 空间 ,用 户 (user) 模 式 下 的 程序 不 能 
对 其 进行 读 / 写 操作 。 这 块 特权 空间 的 代码 ,数据 和 堆栈 在 一 个 32 KB 的 区 域内 ,这 个 区 域 
的 最 前 面 是 向 量 表 ,起 始 地 址 为 0x00000000, 剩 下 的 存储 空间 作为 用 户 空间 。 

有 了 重合 区 域 ,系统 使 用 2 个 区 域 : 一 个 256 KB 的 用 户 区 域 和 一 个 32 KB 的 特权 区 域 
( 见 图 13. 1) 。 给 特权 区 域 1 分 配 较 高 的 优先 级 ,因为 它 的 属性 必须 优先 于 用 户 区 域 0。 
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13.1.2 RKE 


ПАКИ ЕДЕ fE D 03 38 HE 48 — BK £f [8] ЭУ Be ЇН] Е 
WIKI ARM. HERA PERS UC DO S ZT a И Л Е, HE IUE COE 
义 的 背景 区 域 的 较 小 子 集 的 属性 。 这 样 , 具 有 较 高 优先 级 的 区 域 可 以 改变 背景 区 域 属性 的 
子 集 。 背 景区 域 可 以 用 来 保护 一 些 睡 眠 状态 的 存储 空间 ,使 其 不 受 非 法 访问 ,而 此 时 由 另 一 
个 不 同 区 域 控制 下 的 背景 区 域 的 其 它 部 分 可 以 处 于 活跃 状态 。 

例如 ,一 个 嵌入 式 系统 定义 了 一 个 大 的 特权 背景 区 域 ,可 以 让 一 个 较 小 的 非特 权 的 区 域 
与 这 个 背景 区 域 的 某 部 分 重合。 这 个 较 小 区 域 的 位 置 可 以 在 该 背景 区 域 的 不 同位 置 ,以 代 
表 不 同 的 用 户 空间 。 当 系统 将 这 个 较 小 的 用 户 区 域 从 一 个 位 置 移动 到 男 一 个 位 置 时 ,早先 
被 覆盖 的 空间 由 背景 区 域 所 保护 。 因 此 用 户 区 域 就 像 窗口 一 样 ,允许 访问 特权 背景 区 域 的 
不 同 部 分 ,但 它 只 有 用 户 级 属性 ( 见 图 13. 2) 。 
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(用 户 访问 ) 





图 13.2 用 背景 区 域 控制 任务 访问 


13. 2 表示 一 个 简单 的 3 个 任务 的 保护 模式 。 区 域 3 定义 活路 任务 的 保护 属性 ,背景 
区 域 0 控制 睡眠 态 任务 空间 的 访问 。 当 任务 1 运行 时 ,背景 区 域 保护 任务 2 和 任务 3 0025 
间 不 受 任务 1 访问 ; 当 任 务 2 运行 时 ,任务 1 和 任务 3 的 空间 被 保护 ;最 后 , 当 任务 3 运行 
时 ,任务 1 和 任务 2 的 空间 被 保护 。 这 样 工作 的 原因 是 区 域 3 比 区 域 0 有 较 高 的 优先 级 , 尽 
管区 域 0 有 较 高 的 访问 权限 。 








13 ”存储 器 保护 单元 MPU 
在 本 章 最 后 的 例 程 代码 中 用 一 个 背景 区 域 来 演示 一 个 简单 的 多 任务 保护 模式 。 





13.2 初始 化 MPU,cache 和 与 缓冲 器 


为 了 初始 化 MPU, cache 和 写 缓冲 器 ,控制 系统 必须 定义 在 操作 目标 平台 时 所 需 的 保 
护 区 域 。 
在 启用 存储 大 保 护 单元 之 前 ,必须 至 少 定义 一 个 数据 区 域 和 一 -个 指令 区 域 ,而 且 必 须 在 
启用 cache 和 写 缓冲 器 之 前 (或 同时 ) 启 用 存储 器 保护 单元 。 
控制 系统 通过 设置 CP15 的 主 (primary) 寄 存 器 cl,c2,c3,c5 和 c6 来 配置 MPU, 
表 13. 2 列 出 了 用 来 控制 MPU 操作 的 主 寄存 器 ,寄存 器 cl 是 主要 的 控制 寄存 器 ， 
# 13.2 用 来 控制 MPU 的 协 处 理 器 寄存 器 


SHUN uouoejold АЛОШӘр Ç | 


m 能 | АБ $A E 
系统 控制 cl e 
区 域 的 cache 属性 c? б 
КТЫ ЖЧ ДЕЕ 3 сй 
区 域 的 访问 权限 $ a 
区 域 的 大 小 和 位 置 сб 加 一 上 


通过 配置 寄存 器 c2 和 c3 来 设置 区 域 的 cache 和 写 缓存 器 的 属性 ,寄存 器 c5 控制 区 域 1 449 


的 访问 权限 ,在 害 存 器 6 里 有 8 或 16 个 次 (secondary) 寄 存 器 ,用 来 定义 每 个 区 域 的 大 小 和 
位 置 。 在 ARM740T, ARM940T, ARM946E - S 和 ARMIO26E] -S 中 还 有 其 它 配 置 寄存 
需 , 但 是 其 用 法 不 包括 MPU 的 基本 操作 。 有 关 协 处 理 器 CP15 的 寄存 器 的 用 法 ,请 参 
03.5.2 小 节 。 | 

初始 化 MPU ,cache EE Ж ЕРКШ. 


(D 使 用 CP15:c6 来 定义 指令 和 数据 区 域 的 大 小 和 位 置 ; 

D 使 用 CP15:c5 来 设置 每 个 区 域 的 访问 权限 ; 

Q 分 别 使 用 CP15:e2 和 CP15:e3 来 设置 每 个 区 域 的 cache RIS ZUR; 
Ф 使 用 CP15:cl 来 使 甬 cache 和 MPU, 


在 描述 完 用 来 配置 每 个 寄存 器 的 协 处 理 器 CP15 命令 以 后 ， 都 有 一 小 节 描 述 每 个 步 又 ， 
也 有 例 程 代码 来 说 明 在 初始 化 过 程 中 ,完成 该 步骤 的 程序 中 所 用 到 的 命令 ， 
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13.2.1 定义 区 域 的 大 小 和 位 置 


BARRALH S 个 次 寄存 器 CP15:c6;c0;0— CP15:c6;c7:0 来 定义 每 个 区 域 的 大 
小 和 地 址 范围 。 每 个 协 处 理 器 次 寄存 器 号 映射 到 对 应 的 区 域 标识 号 ， 

每 个 区 域 的 起 始 地 址 必须 对 齐 到 其 大 小 的 整数 倍 。 比 如 ,一 个 区 域 的 大 小 是 128 КВ, 
其 起 始 地 址 可 以 是 0x20000 的 整数 倍 的 任何 数 。 区 域 的 大 小 可 以 是 4 KB~4 GB 的 2 的 任 
ERE. 

图 13. 3 和 表 13.3 说 明 CP15:c6:c0 一 CPl5:e6:e7 的 8 个 次 寄存 器 的 位 域 和 格式 ， 最 
高 位 城 [31:124 保 存 起 始 地 址 ,起 始 地 址 必须 是 大 小 域 [5:1] 的 整数 倍 , 眉 位 域 [0] 使 能 或 禁 
用 该 区 域 。 也 就 是 说 ,区 域 可 以 被 定义 和 禁用 ,因此 其 属性 直到 使 能 位 被 置 位 才 生 效 ， 
CP15:c6 次 寄存 器 中 未 定义 的 位 必须 置 为 0。 


O gd SBZ x fH 
31 1211 6 5 і 0 


图 13.3 设置 区 域 的 大 小 和 位 置 的 CP15:66 寡 存 器 格式 
$ 13.3 CP15:c6:c0—— CP15:c6:c7 的 寄存 器 位 域 描 壕 





% 2 # Ж Ë # 

起 始 地 址 [31,12] 比 4 KB 天 的 地 址 必须 是 [5:1] 中 表示 的 天 小 的 全数 
SBZ [11:6] 必须 置 为 0 

N [5;1] 区 域 的 大 小 尺寸 为 2N+1 ,这 里 SNS 

Е [0] DSL fb .1—{ ИЕ .0=4Е 


可 以 用 公式 size 一 2 或 查找 表 13.4 的 值 来 定义 区 域 的 大 小 ,在 CP15;c6 寄存 器 的 大 
小 位 域 中 填 人 指数 N 米 设 置 大 小 。 硬 件 设置 时 ,限制 N 的 值 为 11~31 的 任意 值 ,表示 大 
小 为 4KB~-4 GB。 确 定 了 区 域 的 大 小 后 ,区 域 的 起 始 地 址 可 以 用 公式 算出 (大 小 的 整数 
f) ,也 可 以 查 者 13. 4。 区 域 的 大 小 和 起 始 地 址 与 系统 的 存储 器 映射 和 控制 系统 必须 保护 
的 空间 有 关 。 本 章 最 后 的 示例 系统 说 明 在 给 定 的 系统 存储 器 映射 中 如 何 建立 区 域 。 
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表 13,4 区 域 大 小 编码 O 
T # #7414 二 进 制 值 二 进 制 慎 = 
1КВ Е ЕТ © SMB 22 10110 3 
8 KB 12 01100 16 MB 23 10111 S 
16 KB 13 01101 . 32MB 24 11000 d 
32 KB 14 01110 64 МВ 25 11001 D 
64 KB 15 01111 128 МВ 26 11010 O 
128 KB 16 10000 256 MB 27 11011 9 
256 КВ 17 10001 512 MB 28 11100 与 
512 KB 18 10010 1 GB 29 11101 л 
1 МВ 19 10011 2 GB 30 11110 
2 MB 20 10100 4GB 31 11111 
4 МВ 21 10101 


ARMT740T, ARM946E - S fll ARMI026EJ -S 处 理 器 有 8 个 区 域 ,通过 写 CP15:06.cX 
的 次 寄存 项 来 设置 区 域 的 大 小 和 位 置 。 比 如 ,将 区 域 3 的 位 置 和 大 小 设置 戌 起 始 地 址 为 
0x300000, 大 小 为 256 KB 的 指令 序列 如 下 ， 


MOV т1,#0х300000 ;设置 起 始 地 址 
ORR rl,rl,HOxll << 1 4 设置 大 小 为 256 КВ 
MCR p13, D, rl, сб, c3, 0 


先 在 内 核 的 寄存 器 г1 "PLA BERE S HL (R.K FJ MCR 指令 将 zl 的 值 写 人 СР15 的 
次 寄存 器 。 
‚ ARM940T 有 8 个 指令 区 域 和 8 个 数据 区 域 ,需要 一 个 附加 的 操作 码 2 修正 值 来 选择 是 指 
邻 区 域 ,还 是 数据 区 域 。 若 为 数据 区 域 , 则 操作 码 2 为 0# 知 为 指令 区 域 , 则 操作 码 2 为 1。 
例如 ,需要 2 条 МЕС 指令 才能 污 取 数据 区 域 和 指令 区 域 的 大 小 和 位 置 ,一 条 读数 据 区 
域 的 大 小 和 位 置 , 一 条 读 指令 区 域 的 大 小 和 位 置 。 读 取 区 域 5 的 大 小 和 起 始 地 址 的 指令 
如 下 ， 


451 


MRC р15, 0, rZ, 66, 05,0 ir2= 数 据 区 域 5 BER ИЕН Ж Л, 
МЕС p15, 0, r3, сб, c5, 1 3-7 指令 区 域 5 的 起 始 地 址 和 大 小 


第 一 条 指令 将 数据 区 域 5 的 大 小 和 起 始 地 址 装载 到 内 核 的 寄存 器 r2 中 ,第 二 条 指令 将 
S URS 的 天 小 和 起 始 地 址 装载 到 内 核 的 寄存器 r3 中 。ARM940T E HW f 
区 域 和 数据 区 域 分 离 的 处 理 器 核 。 





Spin sJedojeAec UUSISAS IARI 
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[13.1] 说 明 怎 样 设置 区 域 的 起 始 地 址 ,大 小 和 使 能 位 ， 
例 程 regionSet 的 C 函数 原型 如 下 ， 


void regionsetfunsigned region, unsigned address, unsigned sizeN, unsigned enable); 


这 个 例 程 有 4 个 无 符号 整 型 的 输入 参数 ,要 配置 的 区 域 , 区 域 的 起 始 地 址 ,编码 以 后 的 
区 域 的 大 小 sizeN 以 及 区 域 是 使 能 还 是 禁止 。 在 改变 区 域 的 属性 时 ,最 好 是 先 禁 用 它 ,然后 
在 改变 完成 以 后 再 重新 使 能 它 。 

为 了 使 这 个 例 程 可 以 在 全 部 4 个 带 MPU 的 处 理 器 上 运行 ,可 以 通过 配置 指令 区 域 和 
数据 区 域 的 大 小 和 起 始 地 址 信息 来 统一 ARM940T 的 区 域 空间 。 为 了 实现 这 个 功能 ,编写 
的 宏 SET REGION 包含 两 部 分 ,一 部 分 专 为 ARM940T: 另 一 部 分 为 其 它 核 。 这 样 ,相同 
的 例 程 就 可 以 支持 4 个 带 MPU 的 核 了 。 


H if defined! __ TARGET CPU ARM940T) 
# define SET REGION(REGION NUMBER) \ 
/< 设置 数据 区 域 的 起 始 地 址 和 大 小 * / N 
. asmiMCR p15, 0, côf, c6, c # Ё REGION NUMBER, О \\ 
/* 设置 指令 区 域 的 起 始 地 址 和 大 小 * / \ 
__аѕш{МСВ р15, 0, сёЁ, сб, c H # REGION NUMBER, 1 } 
# endif 





# if defined TARGET CPU, ARM946E S) | À 
defined( TARGET CPU ARM1D26FJ 5) 
# define SET REGION(REGION NUMBER) \ 
/* 设置 区 域 的 起 始 地 址 和 大 小 x /\ 
Lasm(MCR p15, 0, c6f, сб, c # H REGION NUMBER, 0 ) 
# endif - 


void regionSet(unsigned region, unsigned address, 
unsigned sizeN, unsigned enable) 
i 
unsigned с6#; 


c6f = enable | (sizell << 1) | address, 
switch (region) 
{ 
саве 0, ( SET REGION(O) break;) 
case 1, Í SET REGIDN(1),;break;) 
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case 2, | SET REGION(2) ;ргеак;) 
case 3, { SET REGION(3),break,;! 
саве 4, | SET. REGION(4) ;break;) 


SET КЕСІОН(6) ; break; } 
SET КЕСІОМ(7) break; } 
default. { break! 
j 
) 


代码 首先 将 起 始 地 址 ,sizeN 和 使 能 位 等 区 城 属 性 合并 到 一 个 无 符号 整 型 变量 c6f; 然 
АВ Ж SET_REGION 创建 的 8 个 regionSet 例 程 之 一 ,SET_REGION 通过 写 
CP15:c6 次 寄存 天 ,为 定义 的 区 域 设置 起 始 地 址 ,大 小 和 材 能 状态 。 


í 
{ 
i 

case 5, ( SET REGION(5) ,break;! 
case б. | 
{ 


case 7, 


SHUN UOHOSJOd AIOUUOIN Ct 


13.2.2 访问 权限 


有 2 组 可 用 的 访问 权限 机 制 :标准 组 和 扩展 组 。4 个 核 都 支持 标准 组 ,标准 组 有 4 级 权 
限 。ARM946E - S 和 ARM1026EJ - S 支持 扩展 组 ,扩展 组 增加 了 额外 的 2 级 权限 ( 见 
# 13, 5)。 扩 展 组 AP(access permission, 访 问 权限 ) 位 域 编 码 支持 12 个 增加 的 权限 值 , 现 
在 只 有 2 个 值 有 定义 。 使 用 未 定义 的 编码 ,将 导致 不 可 预知 的 结果 ， 
913,5 СР THEME 5 访问 权限 


一 ~ 453 
LEEI 用 P 标准 APERE ЖАР ЁЛ 
不 可 访问 本 可 访问 00 0000 
读 / 写 不 可 洲 问 0] 0001 
读 / 写 只 读 10 0010 
该 / 写 s 11 | 0011 
不 可 预知 水 可 预知 一 0100 
Rë TT gi fü) — 0101 
яй RE — 0110 
不 可 预知 不 可 预知 一 0111 
不 可 预知 不 可 预知 一 1000—1111 


通过 写 CP15:e5 的 次 寄存 器 来 分 配 区 域 的 访问 权限 。 次 寄存 器 СР15+с5:сб:0 和 
CP15;c5:c0;1 配置 标准 的 AP, 次 寄存 器 CP15.65,c0.2 和 CP15:c5,00,3 配置 扩展 的 AP. 
表 13.6 和 图 13.4 说 明 AP 寄存 器 的 寄存 器 权限 位 分 配 ， 


ARM RARRANA 

















> 表 13.6 ”标准 和 扩展 访问 权限 寄存 器 CP15:c5 HERSE 
2 za 标准 AP Ж АР 
e * £ 位 ж AX + 位 ж 
3 u 0 ATO [1,0] сАРо [3:0] 
Сл 1 АРІ [3.2] eAPI [7:4] 
2 2 АР? [5:4] еАР? [11:8] 
e 3 AP3 [7.6] cAP3 [15,12] 
g 4 АР4 [5,87 еАРі [19.16] 
Ф 5 АР5 [11:10] eAPS [23:20] 
出 6 АРЕ (13.123 eAPG [27.24] 
" ? АР? [15,14] eAP7 [31:28] 

CP15:cS:c0 标 准 指令 区 域 AP 

CP15'e5;cl 标 准 数 据 区 域 AP 





CP15:t5:c2 扩 展 指令 区 域 AP 
CP15:65:03 扩 展 数 据 区 域 AP 


e o pner rm m [om 


3M 2827 2423 2019 1615 121 
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Ж 13.4 СР15 寄存 器 5 访问 权限 寄存 器 格式 


支持 扩展 权限 的 处 理 器 也 可 以 运行 为 标准 权限 编写 的 软件 。 有 效 的 权限 类 型 取决 于 对 
СР15 AP 寄存 器 的 最 后 一 次 写 人 : 若 最 后 一 次 写 人 的 AP 寄存 器 是 标准 AP 寄存 器 , 则 内 核 
使 用 标准 权限 ; 若 最 后 一 次 写 人 的 AP 寄存 器 是 扩展 AP 寄存器, 则 内 核 使 用 扩 订 权限。 这 
样 做 的 原因 是 , 写 标准 AP 寄存 器 也 更 新 了 扩展 AP 寄存 器 , 即 扩展 AP 区 域 的 高 位 [2,3] 被 
BERT. 

当 使 用 标准 AP 时 ,每 个 区 域 在 寄存 失 CP15:c5; 00:0 和 CPl5;c5:60:1 中 有 2 位， 
CP15:c5:c0,0 设置 数据 АР,СР15;с5.с0;1 设置 指令 区 域 。 

读 指 令 和 数据 空间 的 标准 AP, 需 要 读 2 个 寄存 器 。 下 面 的 2 句 MRC 指令 序列 将 数据 
区 域 的 AP 信息 放 在 内 核 寄存 器 tl 中 ,指令 区 域 的 AP 信息 放 在 寄存 器 r2 中 ， 














МЕС р15, 0, rl, c5, c0, 0 To ХЫ ЖЕАР 

МЕС p15, 0, r2, c5. cO, 1 m E B Bi ñE АР 

如 果 是 扩展 AP. EAS X ILES TERR CP15:c5:00,2 RI СРІ5.с5,с0.3 中 有 4 位 。 内 
核 将 8 个 区 域 的 指令 信息 保存 在 一 个 寄存 器 中 ,数据 信息 保存 在 另 一 个 寄存 器 中 。CP15; 
созсо 设置 数据 区 域 的 AP,CP15:c5;c0.3 设置 指令 区 域 的 АР. 

要 获取 指令 和 数据 区 域 的 扩展 AP, 也 需要 读 2 个 寄存 器 。 下 面 的 2 句 指令 序列 将 数据 
区 域 的 AP 故 在 核 寄存 器 r3 中 ,指令 区 域 的 AP 放 在 寄存 器 At, 

МЕС p15, 0, r3, c5, c0, 2 HEERKE АР 

ИЕС р15, 0, r4, c5, cO, 3 i85 E EE UR AP 

下 面 将 用 2 个 例子 来 说 明 如 何 使 用 访问 权限 。 一 个 说 明 标 准 AP, 另 一 个 说 明 扩 展 
AP, 这 2 个 例子 使 用 内 想 汇编 代码 来 读 / 写 CP15 寄存 器 

这 里 提供 2 个 标准 .AP 例 程 ,regionSetISAP 和 regionSetDSAP, 浴 设置 区 域 的 标准 AP 
ft. # C 中 调用 时 ,使 用 下 面 的 散 数 原型 

void regionSetISAP(unsigned region, unsigned ap); 

void regionSetDSAP(unsigned region, unsigned ap); 


第 一 个 参数 是 区 域 号 ,第 二 个 参数 是 2 位 的 什 , 用 来 定义 被 区 域 控 制 的 指令 或 数据 空间 
的 标准 AP。 

СИ 13.2] 2 个 例 程 除了 读 / 写 不 同 的 CP15:e5 次 寄存 器 外 ,几乎 完全 相同 :一 个 是 
读 / 写 指令 寄存 器 , 另 一 个 是 读 / 写 数据 寄存 器 。 例 程 通过 对 CP15.c5 寄存 器 进行 简单 的 
读 -- 修 改 一 写 操作 来 设置 指定 区 域 的 AP, 而 不 改变 其 它 区 域 的 配置 ， 

void regionSetISAP(unsigned region, unsigned ap) 


{ 
unsigned c5f, shift; 


shift = 2 * region: 


—asm{ МЕС p15, 0, c5£, c5, c0, 1} /¥* 装载 标准 数据 sP / 
c5f = c5f & (0x3 << shift), /x 清除 原来 的 下 信 +/ 
C5f = c5£ | (ap << shift); /#4 设置 新 的 如 性 ey. 
asmi МСЕ p15, 0, c5f, c5, c0, 1 } / w ТЛ АР x / 


; 


void regionSetDSAP(unsigned region, unsigned ap) 
{ 
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unsigned c5f, shift; 

shift = 2 * region; /xz 设置 位 域 宽度 * / 

. asmi MRC p15, 0, c5£, c5, c0, 0 ] / x 装载 标准 指令 АР x / 
c5f = c5f &— (0х3 << shift); / * ШЕ ИЖ АР {у +/ 
c5f =с5Ё | (ар << shift); fx 设置 新 的 本 位 x 
..asm( MCR p15, 0, c5f, c5, c0, 0 | Ге ЕВА АР / 


і 


例 程 设置 了 特定 区 域 的 权限 , 先 使 用 一 个 被 移 位 的 屏蔽 码 来 清除 AP 位 ,然后 用 ap fif 
人 参数 来 设置 AP 位 域 。AP 位 域 的 位 置 是 区 域 号 乘 以 权 女 位 城 的 位 数 , 即 变量 shift。 通 
过 移 位 ap 值 和 使 用 OR 指令 来 修改 c5f 核 寄存 器 ,以 设置 位 域 值 ， 


这 里 提供 2 个 扩展 AP Й. regionSetIEAP 和 regionSetDEAP, 以 设置 区 域 的 扩展 AP 
位 。 它 们 的 C 函数 原型 如 下 : 


void regionSetIEAP(unsigned region, unsigned ар); 
void regiongetDEAF (unsigned region, unsigned ap); 


第 一 个 参数 是 区 域 号, 第 二 个 参数 是 4 位 的 值 ,表示 由 区 域 控制 的 指令 或 数据 存 情 空间 的 扩 
Ж AP, 


【 例 13.31] 2 个 例 程 除了 读 / 写 不 同 的 CP15:e5 次 寄存 器 和 4 位 宽 的 AP 位 域外 ,与 标 
W АР 例 程 几乎 完全 相同 。 | 
void regionSetIEAP(unsigned region, unsigned ap) 
1 
unsigned c5f, shift; 


әре) sJedoj^eg WAAS WI 


shift = 4 * region; RECARE =» / 
__asm{ MRC р15, 0, c5£, c5, c0, 3 } /+ 装载 扩展 数据 P ку 
c5F= c5É ġe (Oxf «е shift); Ге КЛЕН) АР zw / 
c5 = с5Ё | (ap << shift); / x 设置 新 的 三 位 x/ 
. Asm( MCR р15, 0, c5f, c5, c0, 3] Г 保存 扩展 数据 AB < / 


} 
void regionSetDEAP(unsigned region, unsigned ap) 
{ 

unsigned c5f, shift; 


shift = 4 region, /* 设置 位 域 宽度 x / 
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. asm MRC p15, 0, c5f, c5, сб, 2 } Zx ЖА ШЗ АР + / 
с5Ё = c5f &— (Oxf << shift), /* КЕШЕ] AP fur + / 
с5Ё = c5f | (ap << shift); / ® 设置 新 的 下体 #7 

. asní( MCR p15, 0, c5f£, c5, cO, 2 1 x 保存 扩展 指令 АР жу 


每 个 例 程 都 使 用 一 个 移 位 后 的 屏蔽 码 来 清除 AP 位 ,然后 用 ap 输入 参数 设置 AP 位 
域 ,以 设置 指定 的 区 域 权限 。AP 位 域 的 位 置 是 区 域 号 乘 以 权限 位 域 的 位 数 , 即 变 最 shift 
的 值 。 通 过 移 位 ap 值 和 使 用 OR 指令 来 修改 S 核 寄存 器 ,以 设置 位 域 值 ， 


13.2.3 设置 区 域 的 cache JS 88 (pas g š+ 


每 个 内 核 有 3 个 CP15 寄存 器 用 来 控制 区 域 的 сасһе ЖБ ЖИРНЕ RE, Жр CP15:c2， 
с0:0 Ж СР15:с2,с0,1 两 个 寄存 器 保存 D-cache 和 cache 区 域 属性 ;第 3 TARA, CP15， 
c3:c0:0 用 于 保存 区 域 写 缓 神器 属性 , 并 应 用 于 存储 器 数据 区 域 (详细 内 容 和 参见 图 13.5 和 
13.7), 
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CP15:c2:00:0 4 E caclee 
CP15:c2:c0:1—18 2 cache 


CP15::3:00:0— SH PP RE 457 


SBZ-should be zero 





W 13.5  CP15:c2 cache #1 CP15:c3 S A p RECIEN Tr Ë 
Ж 13.7 CPIS; 2H CPIS 3 E ri SG 


кою F 8 cache Ai BE MP E X 
ж Ж в à Жж 5 & X 
0 e [0] bà r0] 
1 el [1] bi [1] 
2 e [2] b2 [2] 
3 c3 [3] bà [3] 
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#Җ 13.7 
E cache № [E 3X E SE op EH 
区 җ 一 一 一 一 一 一 





Ж 部 Eo Ж +£ £ ж 


4 el [1] ы [41 











5 c$ [57 bá 15] 
ñ б [8] bó [5] 
7 e? [7] b7 [7] 


APER CPIS:c2:c0.1 包含 所 有 8 个 指令 区 域 的 cache 配置 信息 ,寄存 器 CP15:c02:c0; 
0 包含 所 有 8 个 数据 区 域 的 cache 配置 信息 。 这 2 个 寄存 器 使 用 相同 的 位 域 编码 。 

cache 位 决定 对 区 域内 一 个 给 定 的 地 址 是 否 使 能 cache, Æ ARM740T 和 ARM940T 
中 ,cache 总 是 被 查找 ,而 不 管 cache 位 的 状态 。 如 果 控 制 器 找到 一 个 有 效 的 cache 数据 项 ， 
那么 它 就 使 用 cache 内 的 数据 ,而 不 使 用 外 部 存储 器 的 数据 。 

基于 这 个 cache 特征 , 当 cache 策略 从 使 用 cache 变 为 不 使 用 cache 时 ,必须 游 允 并 可 能 
SED EE RIRA cache。 因 此 ,MPU 控制 系统 每 次 改变 cache 写 策 略 ,从 直 写 变 为 禁用 cache 
时 ,都 必须 清除 cache: MA E SEAH cache 时 ,都 必须 清理 并 清除 cache; 而 从 回 写 变 为 
直 写 时 ,必须 清理 cache。 清 除 和 清理 cache 的 例 程 见 第 12 章 。* 

在 ARM946E— S 中 ,如 果 cache 位 被 清除 , 则 物理 土 存储 在 cache 中 的 信息 将 不 从 
cache 中 返回 ,而 是 直接 访 癌 外 部 存 铺 器 。 这 种 设计 减少 了 当 cache 被 禁用 时 清除 cache 的 
次 数 ,然而 ,原来 区 域 的 清理 规则 仍然 适用 。 

ЖЕТЕ CP15:c3:c0;0 中 的 8 个 区 域 写 缓 冲 器 位 ,使 能 或 禁用 每 个 区 域 的 写 缓 症 绒 ( 见 
图 13.5). 

当 配 置 数据 区 域 时 ,区 域 的 cache 位 和 写 缓冲 器 位 一 起 决定 区 域 的 策略 。 写 缓冲 器 位 
有 2 个 用 途 , 使 能 或 禁用 区 域 的 写 缓冲 器 和 设置 区 域 的 cache 写 策略 。 区 域 的 cache 位 控制 
写 缓 神器 位 的 作用 。 当 cache 位 为 0 时 , 写 缓冲 器 位 为 1, 则 使 能 写 缓 冲 器 ;, 写 缓冲 器 位 为 
0, 则 禁用 号 缓冲 器 。 当 cache 位 为 1 时 ,cache 和 写 缓冲 器 都 被 使 能 ,此 时 写 缓冲 如 位 决定 
cache 写 策略 。 若 写 缓 冲 瞻 位 为 0, 则 区 域 使 用 肖 写 策略 ; 若 写 缓冲 器 位 为 1, 则 区 域 使 用 回 
写 策略 。 表 13. 8 给 出 了 cache 和 写 缓 冲 器 位 的 各 种 状态 和 其 含义 。 直 写 和 回 写 策略 的 详 
Ap ER. 12. 3. 1 小节。 
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+ 关于 清除 , 清 cache 的 含义 请 参考 12,.5 节 。 一 一 译 者 注 
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表 13.8 cache 05 Š Hh EIS j 
а 





指令 cache 数据 cache 
cache 4i. 有 区域 属性 cache 性 SutgG E à, A 
СРІ5,0:00,1 CPlB:c2:c0:0 СР15:с3:с0:0 
0 不 使 用 cache 0 NCNB( 不 使 用 cache ЛТ 2E PERO 
1 fi cache — 0 1 МСВСАЧ fl cache, @ RES Т) 
1 0 WT( 使 用 cache, АЖЖ) 
1 


H WBCB B] cache T5 ЖЮ) 


SHUN uoyg2ejold AIOUJolN €t 


EAH? 1 fJ K OR TU ВЕНЕ Н cache (LS e rp 3$, 3x 2 P 038 EFL IN I TL IRE 
读 / 写 CP15 的 寄存 器 。 

通过 合并 cache 和 写 缓 冲 器 的 控制 为 一 个 简单 的 例 程 调用 ,以 简化 系统 配置 。 遂 过 它 
们 控制 的 写 策 略 来 引用 数据 cache 位 和 写 缓冲 器 位 ,指令 cache 位 单独 表示 。 从 系统 角度 来 
看 ,为 每 个 区 域 合并 cache 和 写 缓 冲 器 为 一 个 单独 的 值 ,容易 将 区 域 依 息 分 组 到 一 个 区 域 控 
制 块 (将 在 13, 3. 3 小 节 讨论 ) 。 

设置 cache 和 写 缓 溃散 的 例 程 , 称 为 regionSetCB, 在 例 13.4 PRR HA TEA CR 
Sg. 


void regionSetCB(unsigned region, unsigned CB); 


例 程 有 2 个 输 人 参数 ,第 1 个 参数 region, 是 区 域 导 ;第 2 个 参数 CB, 合 并 区 域 指令 
cache 属性 和 数据 cache 与 写 缓冲 器 属性 .第 2 个 参数 有 格式 ,使 用 无 符号 整数 的 低 3 位; 
位 [24 代 表 指 令 cache 位 ,位 [1] 代 表 数 据 cache 位 ,位 [0 代表 数据 写 缓冲 器 位 。 


[#1 13.4] RE cache FI ERE, 
例 程 顺序 设置 数据 写 缓冲 器 位 .数据 cache 位 和 指令 cache 位 。 对 每 个 位 ,都 是 先 读 出 
CP15 的 寄存 内 ; 然 后 清除 原来 的 位 值 , 并 设置 新 的 位 值 ; 最 后 将 值 写 回 到 CP15 的 寄存 器 。 
void regionSetCB(unsigned region, unsigned CB) 
( 
unsigned e3f, tempCB, 
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tempCB = CB; 

— asn(MRC рі5, D, c3f. c3, c0, 0 ) EEILCPLILIILTIELI + / 
CJf = СЭР g~ (0х1 << region); /x ФЕ НЖ ЕРИ {у + / 
c3f = of | (CtenpCB & 0х1) << region); / x ANOS SEEDARI < / 


__ава(МСВ р15, 0, c3£, c3, c0, 0} ЕЗИНЕ + / 
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I 

5 tempCB = СВ >> 0х1; 7x 移 位 至 数据 cache 位 +/ 

e __аѕщі МЕС p15, 0, c3£, c2, c0, 0 ) Г MEETS cache 控制 寄存 器 x / 
T C3E = с3Ё &Е-—(0х1 << region); /7* 清除 原来 的 数据 cache 位 +/ 
3 C3f = c3f | ((tempCB & 0х1) << region); A*# 设置 新 的 数据 cache fr = ; 

o . asgm(MCR p15, 0, c3f, c2, cO, 0! ^+ 保存 数据 cache 控制 信息 x / 
Q 

< 

Š benpCB = CB >> 0x2; / * 移 位 至 指令 cache 位 * / 

0 . asmiMRC p15, 0, c3£, c2, c0, 1] гж 装载 指令 cache Rë h E TERR x / 
A c3f = c3f & (0х1 << region); Ге 清除 原来 的 指 念 cache {у = / 
Q) côf = c3f | ((tempCB & 0х1) << region); ix 设置 新 的 指令 cache {у + / 

8 —asn{MCR p15, 0, c3f, c2, 00,1) / * 保存 指 今 cache 控制 信息 */ 

Ф \ 


13.2.4 使 能 区 域 和 MPU 


初始 化 过 程 还 剩 下 2 步 ;一步 是 使 能 活动 的 区 域 ; 另 一 步 是 到 过 使 能 MPU cache ЖЕ 
缓冲 器 来 启用 保护 单元 硬件 。 

这 里 ,控制 系统 再 次 用 到 在 13. 2. 1 小 节 介 绍 的 regionSet 例 程 ,以 使 能 一 个 区 域 。re- 
gionSet 的 多 种 用 途 在 本 章 最 后 的 例 13. 6 有 介绍 。 

为 了 使 能 MPU, cache 和 写 缓冲 器 , 须 修 改 系统 控制 寄存 器 CP15:c1:c0.0 中 的 位 值 。 
在 ARM940T, ARM946E - S 和 ARMIO26E] - S 处理 器 中 ,MPU 位 cache 位 积 写 缓冲 器 
位 在 СР15.с1;с0 中 的 位 置 是 相同 的 ,因此 对 于 这 3 个 核 ,使 能 配置 好 的 MPU 是 一 样 的 。 
使 能 位 的 位 置 见 图 13, 6 和 表 13.9。CP15 ;cl;c0 寄存 器 还 有 其 它 的 没有 在 图 13, 6 中 表示 
出 的 配置 位 ,这 些 位 的 目的 和 位 置 是 与 处 理 器 相关 的 ,并 不 是 保护 系统 的 一 部 分 ， 
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表 13.9 CPIS 控制 寄存 器 1 的 保护 单元 使 能 位 








位 Жр» f 值 

Bn Š v MPU | КТ .1= {E fE Е _ 
2 数据 cache 0— BR] ,1= fefe 
12 指令 cache O= 9.1 BERE 


这 里 使 用 changeControl 例 程 ,如 例 13. 5 所 述 , 以 使 能 MPU 和 cache, changeControl 
例 程 可 以 修改 CP15:c1;c0;0 寄存 器 中 的 任意 位 置 的 值 。 它 有 下 面 的 C 函数 原型 ; 


vaid controlSet(unsigned value, unsigned mask); 


传递 的 第 1 个 无 符号 整 型 参数 包含 须 改 变 的 位 值 。 第 2 个 参数 用 来 选择 要 改变 的 位 ,位 值 
1 改变 控制 寡 存 器 的 相应 位 :位 值 0 则 保持 相应 位 值 不 变 , 而 不 管 第 1 个 参数 的 位 状态 。 

例如 , 若 使 能 MPU 和 Leache, 禁 用 D-cache, 则 设置 位 [12] 为 1, 位 [2] 为 9, 位 [0] 为 1。 
第 一 个 参数 的 值 就 应 为 0x00001001, 镜 下 的 不 改变 的 位 应 为 0。 为 了 只 选择 位 [12j ,位 [2] 
和 位 [0j 这 些 要 改变 的 位 ,将 屏蔽 码 设置 为 0x00001005。 


СИ 13.5] 读 取 控制 害 存 器 ,将 值 保存 在 一 个 寄存 器 中 ;然后 用 屏蔽 输入 值 清除 所 有 
要 改变 的 位 ,用 value 值 没 置 其 为 希望 的 状态 ; 例 程 最 后 将 新 的 控制 值 写 到 CP15:cl:e0 寄 
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void controlSet(unsigned value, unsigned mask) 


i 
unsigned int clf; 
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..asm(MRCpi5, 0, clf, ci, c0, 0 | НЕНА 98 + / 
clf=c1F &-—mask; ге 清除 要 改变 的 位 * / 
elf = с1Ё | value, / * 设置 要 改变 的 位 * / 
__asmi MCR рі5, 0, clf, cl, o0. 0 } /* 写 控制 寄存 器 = / 


13.3 MPU 系统 示例 


本 草 前 面 已 经 介绍 了 一 系 烈 例 程 ,这 些 俩 程 可 以 作为 构建 块 Cbuitding blocks)3 fi B, 
以 初始 化 和 控制 一 个 受 保 护 的 系统 。 本 节 使 用 这 些 例 程 来 初始 化 和 控制 一 个 简单 的 受 保护 
系统 ,该 系统 使 用 国定 的 存储 器 映射 
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MPU 系统 示例 使 用 本 章 前 面 几 节 介绍 的 例子 ,以 创建 一 个 实用 的 受 保护 系统 。 ЕЁ 
供 了 在 一 个 简单 的 受 保护 多 任务 系统 中 运行 3 个 任务 的 基本 框架 。 这 个 例子 能 够 清晰 地 说 
明 ARM MPU 硬件 的 概念 。 该 示例 用 C 语言 编写 ,使 用 标准 访问 权限 。 





13.3.1 系统 需求 


本 示例 系统 有 以 下 一 些 硬件 特征 : 


e 一 个 带 MPU 的 ARM E; 
e 256 KB 的 物理 存 钳 器 ,起 始 地 址 为 0x0, 结 束 地 址 为 0x4000; 
e 一 些 存 情 需 映射 的 外 设 ,位 于 0x10000000-0x12000000 的 几 兆 字 节 空间 里 ， 


在 本 示例 中 ,所 有 的 存储 器 映射 外 设 ,被 看 作 是 一 个 需要 保护 的 存储 器 单独 空间 ( 参 
见 表 13. 10) 。 
本 示例 系统 有 以 下 一 些 软件 模块 ， 


e 系统 软件 小 于 64 KB。 包 括 向 量 表 、 异 常 处 理 程序 和 支持 异常 的 数据 堆栈 。 系 统 软 
件 必须 是 用 户 模式 下 程序 不 可 访问 的 ,也 就 是 说 ,用 户 模式 下 的 任务 必须 通过 系统 
调用 来 运行 或 访问 在 这 个 区 域 中 的 代码 或 数据 ， 
e 有 一 个 小 于 64 KB 的 共享 程序 ,包括 通用 库 和 用 户 任 务 间 传递 消息 的 数据 空间 。 
e 有 3 个 在 系统 中 控制 独立 功能 的 用 户 任务 。 这 些 任 务 每 个 小 于 32 KB, 当 这 些 任 务 
462 运行 时 ,它们 不 能 被 其 它 2 个 任务 访问 。 


这 些 软 件 被 连接 ,并 将 软件 模块 放 在 分 配给 它们 的 区 域内 。 这 个 示例 软件 的 存储 器 映 
射 如 表 13.10 所 列 。 系 统 软 件 的 访问 权限 是 系统 级 的 ,共享 的 程序 空间 可 被 整个 系统 访问 ， 
任务 程序 区 域 包含 用 户 级 任务 。 
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ЧЕЛИ 8k B| 59218 Йй 系 
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统 0х10000000 2 MB 
0x00000000 4 GB 
0x00010000 f4 KB 
RP ES 1 
用 户 任务 2 
用 户 任 务 3 


Qx00020000 32 KB 
0x00028000 32 KB 


= р T Tj Ж 
Qs 00 t2 PD 一 中 


0x00030000 32 KB 
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13.3.2 使 用 存储 器 映射 分 配 区 域 


表 13. 10 的 最 后 一 列 为 分 配给 存储 器 空间 的 4 个 区 域 。 使 用 在 表 中 列 出 的 起 始 地 址 、 
代码 ,数据 块 的 大 小 来 定义 区 域 。 表 示 区 域 布局 的 存储 器 映射 如 图 13.7 所 示 。 


OxFFFFFFFF 
0x11000000 


0x10000000 
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0x00038000 


0x00030000 


分 配 区 域 3 给 
运行 的 任务 


0x00028000 


0x00020000 


0x00010000 
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0x00000000 





图 13.7 区 域 分 配 和 受 保护 示例 系统 的 存储 器 映射 


区 域 1 是 一 个 背景 区 域 , 覆 盖 整 个 可 寻 址 的 存储 器 空间 。 它 是 一 个 特权 区 域 (不 允许 用 
户 模式 下 的 访问 ) ,使 能 指令 cache, 数 据 cache 使 用 直 写 策略 操作 。 该 区 域 的 优先 级 最 低 ， 
因为 它 是 最 小 分 配 号 的 区 域 。 

区 域 1 的 主要 功能 是 限制 对 0x0 ~ 0х10000 之 间 的 64 KB 空间 的 访问 , 即 受 保护 的 系 
统 区 域 。 区 域 1 还 有 另外 2 个 功能 :作为 背景 区 域 和 作为 睡眠 态 用 户 任务 的 保护 区 域 。 作 
为 背景 区 域 , 它 保证 整个 存储 器 空间 默认 被 分 配 系统 级 访问 ,这 样 就 能 防止 用 户 任务 访问 备 
用 的 或 未 用 的 存储 空间 ;作为 用 户 任务 保护 区 域 , 它 保护 睡眠 态 任务 不 受 运行 态 任务 的 非法 
访问 ( 见 图 13.7), 

区 域 2 控制 对 共享 系统 资源 的 访问 。 它 的 起 始 地 址 为 0x10000, 大 小 为 64 KB。 它 直 
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接 有 映射 在 共享 系统 代码 的 共享 存储 器 空间 上 上。 区域 2 是 受 保护 的 区 域 1 的 一 部 分 ,但 优先 
于 受 保护 的 区 域 ] ,因为 它 有 较 高 的 区 万 号 ， 区 威 2 允许 用 户 级 和 系统 级 的 存储 器 访问 ， 

区 域 3 控制 运行 任务 的 存储 器 空间 和 属性 。 当 控制 权 从 一 个 任务 传 给 胃 一 个 任务 时 ， 
如 上 下 文 切 换 , 操 作 系 统 就 重新 定义 区 域 3, 使 得 它 覆 盖 运 行 任务 的 存储 器 空间 。 当 区 域 3 
重新 分 配 到 一 个 新 的 任务 时 , 它 将 原来 任务 的 空间 交 给 区 域 1 的 属性 控制 .原来 的 任务 空 
间 变 成 了 区 域 1 的 一 部 分 ,而 当前 运行 的 任务 是 一 APER ERR З, 这 样 运行 任务 就 不 能 访 
问 厌 来 的 任务 空间 ,因为 它 受 区 域 1 属性 的 保护 。 

区 域 4 是 存 情 器 映射 的 外 图 系 统 空 间 。 该 区 域 的 主要 目的 是 ,建立 没有 cache 和 没有 
与 缓冲 器 的 空间 。 这 样 ,在 对 控制 审 存 器 和 1/О 设备 操作 时 ,就 不 会 涉及 到 高 速 缓存 可 能 
产生 的 陈 提 数 据 信息 ,同时 还 可 以 避免 使 用 写 缓冲 导 铬 的 时 间或 顺序 问题 (详细 的 .使 用 带 
cache 和 号 缓冲 器 的 1/O 设备 的 内 容 见 第 12 Ж), 


13.3.3 初始 化 MPU 


为 了 便于 组 织 初始 化 过 程 , 这 里 创建 了 一 个 称 为 Region 的 结构 。 该 结构 的 成 员 项 保存 
系统 操作 中 使 用 的 区 域 的 属性 。 在 使 用 MPU 时 ,Region 结构 并 不 是 必需 的 , 它 只 是 为 示例 
程序 竟 方 便 设计 。 在 这 个 示例 中 , 称 这 些 数 据 结 构 的 集合 为 一 个 区 谣 花 身 药 RCBCRegion 
Control Block) , 

初始 化 程序 使 用 存储 在 КСВ 中 的 信息 来 配置 MPU 中 的 区 域 。 可 以 在 RCB 中 定义 比 
物理 区 域 更 多 的 Region 结构 。 例如, 区域 3 是 任务 使 用 的 惟一 物理 区 域 ,但 是 它 对 应 3 个 
Region 结构 ,每 个 用 户 任务 使 用 一 个 Region 结构 。 该 结构 的 定义 如 下 ， 


typedef struct { 
unsigned int number; 
unsigned int type; 
unsigned int baseaddress; 
unsigned int size; 
unsigned int ТАР; 
unsigned int DAP; 
unsigned int Ch; 

} Region, 


Region 结构 有 ? 个 成 员 项 ,前 2 个 值 描述 结构 本 身 的 特征 :分 配给 Region 结构 的 
MPU 区 域 号 和 使 用 的 访问 权限 的 类 型 , 即 STANDARD( 标 准 类 型 ) 或 EXTENDED RE 
类 型 )， 璋 下 的 成 员 项 是 所 指定 区 域 的 祥 性 ,区 域 的 起 始 地 址 baseaddress; 区 域 的 大 小 size; 
访问 权限 ТАР 和 DAP cache fi b ERR. СВ, 
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示例 中 RCB 的 6 个 Region 结构 如 下 : 
E 区 域 号 , АР Ж x / 
/* 起 始 地 址 ;大 小 ,IAP, DAP, CB + / 


Region peripheralRegion ={PERIPH, STANDARD, 
0х10000000, SIZE 1M, НОНА, RWNA, ccb}; 





SHUN uUolHoaeloid AIOULSWN € [ 


Region kernelReqion = (KERNEL, STANDARD, 

0х00000000, SIZE 45, BONA, RWNA, CWT); 
Region sharedRegion = (SHARED, STANDARD, 

| 0х00010000, SIZE 64K, RORO, RWRW, СИТ); 

Region tasklRegion- (TASK, STANDARD, 

0х00020000, SIZE 32K, RORO, RWRW, CWT); 
Region task2Region- (TASE, STANDARD, 

0x00028000, SIZE 32K, RORO, RWRW, CWT); 
Region task3Region- (TASK, STANDARD, 


0x00030000, SIZE 32K, КОБО, RWRW, CWT); 


访问 RCB 时 ,为 了 增强 可 读 性 ,创建 了 13.3. 小 节 开 关 所 述 的 一 系列 宏 。 值 得 注意 的 
是 ,这 里 使 用 一 个 4 字母 的 简单 组 合 , 以 作为 数据 存储 器 和 指令 存储 器 的 访问 权限 。 前 2 个 
字母 表示 系统 访问 权限 ,后 2 个 字母 表示 用 户 访问 权限 。 表 示 系 统 和 用 户 访问 权限 的 2 个 
字母 可 以 是 读 / 写 (RW) 、 只 读 (RO) 或 不 可 访问 (NA)。 

这 里 将 cache 和 写 缓 冲 器 配置 信息 映射 到 指令 cache 和 数据 cache 的 策略 属性 。 第 1 
个 字母 为 C 或 c, 分 别 表示 启用 或 禁用 区 域 的 指令 cache, 后面 2 个 字母 表示 数据 cache 7f 
略 和 写 缓 冲 器 配置 ,可 以 为 WT 或 WB, 分 别 表示 直 写 策略 或 回 写 策略 。cache 位 和 写 缓冲 
器 位 的 配置 也 可 以 使 用 字母 ¢ 和 b。Cb 为 WT 的 别名 ,CB 为 WB 的 别名 ,cB 表示 禁用 
cache 和 启用 写 缓冲 器 ,cb 表示 禁用 cache 和 禁用 写 缓冲 器 。 | 


13.3.4 初始 化 和 配置 区 城 


接 下 来 介绍 configRegion 例 程 。configRegion 接受 КСВ 中 的 一 个 Region 结构 指针 来 
配置 CP15 寄存 器 ,使 CP15 寄 窒 内 保存 有 描述 区 域 的 数据 ， 
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Ге 区域 导 分 配 x / 

# define BACKGROUND 0 

H define KERNEL 1 

# define TASK 2 
 TYdefine SHARED 3 
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> f define PERIPH 4 
三 
£p 7 # 区 域 装 型 分 配 x / 
A # define STANDARD 0 
3 H define EXTENDED 1 
w; # define DISABLE Ü 
Ф 
2 /+ 访问 权限 + / 
9 # деғіпе NANA 0 
A it define НИНА 1 
Q 1 define RWRO 2 
c Jf define RWRW 3 
Q # define RONA 5 

# define RORO 6 


/+ MX * / 


` Ф define SIZE 4G 31 
# define SIZE 2G 30 
# define SIZE 16 29 
# define SIZE 512M 28 


# define SIZE 256M 27 
Ё define SIZE 128М 26 
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# define SIZE 64M 25 
# define SIZE 32M 24 
# define SIZE 16M 23 
H define SIZE ВИ 22 
# define SIZE 4M 21 
# define SIZE 2M 20 
i define SIZE 1M 19 
# define SIZE 512K 18 
# define SIZE 256K 17 
# define SIZE 12BK 16 
] define SIZE 64K 15 
# define SIZE 32K 14 
# define SIZE 16К 13 
H define SIZE Bk 12 


# define SIZE 4K 11 
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£ x СВ = ICache[ 2]. Пбасһе[1]. Write Buffer[0| * / 
£ ж ICache[ 2], NB[ 1,0|- writeback, WT[ 1,0] = writethrongh * / 
# define ССВ 7 

H define СИВ 
Ë define CCb 
it define CWT 
H define Сев 
# define Ceb 
H define cCB 
# define cWB 
it define cCb 
# define cWT 
Ё define ccB 
H define cch 


SHUN чоц д АОИ CI 


с re BM ho ыы L A л ùA A 1 


-REEE = / 
# define R ENABLE 1 
H define R DISABLE Ü 


例 程 遵循 在 13. 2 АТРИ, Л НС RC 的 指针 。 例 和 
内 部 使 用 Region 的 成 员 项 作为 初始 化 过 程 的 数据 输入 。 该 例 程 的 C КЕЛЕ. 


void configRegion(Region * region); 


[613.6] 初始 化 受 保 护 系统 的 MPU cache Е, 
初始 化 过 程 中 使 用 了 本 章 前 面 介绍 的 例 程 。 这 里 使 用 在 13.2 节 中 列 出 的 步 又 来 初始 


化 MPU cache 和 写 缓冲 咽 。 在 例 程 代 码 中 使 用 注释 标 出 了 每 个 步 台 。 执 行 该 例 程 就 初始 
化 了 MPU, 


467. 


void configRegion(Region * region) 
{ 
Г ж 
+* 第 1 步 一 使 用 CP15;c6 来 定义 指令 和 数据 区 域 的 大 小 和 位 置 * / 


regionSet(region - —number, region- >baseaddress, 
region- size, К DISABLE), 


/* 88 225 — AERE CP15.c5 来 设置 每 个 区 域 的 访问 权限 * / 
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if (region- > Еуре == STANDARD) 
í 
regionSetIShP(reglon - — number, region- > IAP); 
reqionSetDSAP(region ~ —>numker, region - >> DAP): 
! 
else if (region- > type == EXTENDED) 
{ 
regionSetlEAP(region — —number, region- >> IAP); 
regionSetDEAP(region- number, region- DAP); 
} 


/* 第 3 步 一 一 分 别 使 用 CP15:c2 和 CP15:c3 来 设置 每 个 区 域 的 cache 和 写 缓冲 器 属性 + / 


opine sJedotre^od WEAS NYY 


regionSetCB(region- — number, region- 7» CB); 
/* S8 4 35—— [EH] СР15;с6 RI CP15.c1 来 使 能 cache, 57 £g np Ж MEU = / 


regionSet(region - — number, region- —baseaddress. 
region- —s5ize, R ENABLE), 
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13.3.5 完成 初始 化 MPU - 


对 于 该 示例 ,使 用 RC 来 保存 描述 所 有 区 域 的 数据 ,使 用 最 高 层 的 名 为 initActiveRe- 
gions 的 例 程 来 初始 化 MPU。 在 系统 启动 时 ,该 例 程 被 调用 一 次 ,为 每 个 活动 的 区 域 进 行 设 
置 。 为 了 完成 初始 化 工作 , 例 程 也 使 能 了 MPU, KAER C 函数 原型 如 下 : 

void initActiveRegions ; 

该 例 程 没有 输 人 参数 。 


[5513.7] 首先 为 每 个 在 系统 启动 时 处 于 活 唉 状态 的 区 域 调 用 一 次 configRegion: 区 
域 kernelRegion, sharedRegion, peripheralRegion 和 tasklRegion, 

在 该 示例 中 ,任务 1 是 运行 的 第 一 个 任务 。 最 后 调用 例 程 controlSet 来 使 能 cache 
和 MPU, 

# define ENABLEMPU (Ox1) 

# define ENABLEDCACHE (0х1 << 2) 
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JH define ENABLEICACHE (0х1 << 12) 
# define MASKMPU (0х1) 

f define МАЅКШСАСНЕ (0х1 << 2) 
H define MASKICACHE (0х1 << 12) 


void initActiveRegions() 

{ 
unsigned int value, mask; 
configRegion(&kernelBeglon); 
configRegion(&sharedRegion); 


SHUN Uokoaioild Аюш cL 


configRegioat&peripheralBRegion); 
configRegion(&tasklRegion); 


value = ENABLEMPU | ENABLEDCACHE | ENABLEICACHE; 
mask = MASKMPU | MASKDCACHE | MASKICACHE; 


controlSet(value, mask); 


13.3.6 SEIPRNFEFXUS 


至 此 已 经 完成 了 初始 化 示例 系统 ,控制 系统 也 已 经 运行 了 它 的 第 一 个 任务 。 在 某 个 时 
刻 ,系统 可 能 须 做 上 下 文 切换 ,以 运行 另外 一 个 任务 。RCB 中 包含 当前 任务 的 区 域 的 上 下 
文 信息 ,所 以 在 上 下 文 切换 时 ,无 须 通过 从 CP15 寄存 器 读 取 数 据 来 保存 区 域 信息 

为 了 切换 到 下 一 个 任务 ,比如 任务 2 ,操作 系统 须 将 区 域 3 移动 到 任务 2 的 存储 空间 上 
( 见 图 13. 7)。 这 里 再 次 使 用 例 程 configRegion 来 实现 这 个 功能 ， 作为 调度 的 一 部 分 ,只 需 
在 执行 实现 当前 任务 和 下 一 个 任务 间 上 下 文 切 换 的 代码 之 前 调用 configRegion。 例 程 con- 
figRegion 的 输 人 参数 是 指向 task2Region 的 指针 ,请 看 下 面 的 汇编 代码 例子 ， 


5ТМЕр 5р1, (r0 - 13,112, irj 
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BL configBRegion 
LDMFD spl, frü- r3,r12.pc) ;return 
Sra СИЮ, 


cont igRegion(&task2Region); 
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13.3.7 mpuSLOS 


本 章 的 许多 概念 和 例子 代码 被 包含 到 一 个 被 称 之 为 mpuSLOS 的 实用 控制 系统 中 。 
mpuSLOS 是 第 11 章 介绍 的 .SLOS 的 带 存储 器 保护 单元 的 变 体 ， 它 实现 了 与 基本 的 
SLOS 相同 的 动能 ,但 有 以 下 一 些 重 要 的 区 别 ， 

€ mpuSLOS 充分 利用 了 MPU, 

e 应 用 程序 与 内 核 分 开 , 单 独 编 译 和 构建 (build) ,然后 合并 到 一 个 二 进 制 文件 ;连接 每 
个 应 用 程序 ,使 它们 在 不 同 的 存储 空间 上 执行 。 

e 每 个 应 用 程序 被 一 个 称 为 静态 应 用 程序 装载 器 (static application loader) 的 例 程 , 装 
载 到 不 同 的 固定 大 小 为 32 KB 的 区 域 ,装载 地 址 是 应 用 程序 的 执行 地 址 。 因 为 每 个 
区 域 炎 小 为 32 KB, 所 以 将 堆栈 指针 设置 在 32 KB 的 顶端 ， 

e 应 用 程序 只 能 通过 设备 驱动 程序 调用 来 访问 硬件 。 如 果 应 用 程序 试图 直接 访问 硬 
件 ,那么 将 产生 数据 中 止 异常 。 这 与 基本 的 SLOS 不 同 ,在 基本 的 SLOS 中 ,应 用 程 

” 序 直接 访问 设备 ,市 不 产生 数据 中 止 异常 。 

e 跳 转 到 一 个 应 用 程序 的 操作 包括 :设置 spsr 寄存 器 ,然后 使 用 MOVS 指令 来 改变 
pc, 使 它 指 向 任务 1 的 人 口 。 

e 每 次 调用 调度 程序 , 活 风 的 区 域 2 就 被 改变 ,以 反映 将 要 执行 的 应 用 程序 。 


13,4 总 结 


存储 器 保护 有 两 种 方法 :一 种 是 无 硬件 保护 (无 保护 ?的 ,这 种 方法 使 用 强制 的 软件 控制 
例 程 来 维护 任务 闻 相 互 作用 的 规则 ! 另 一 种 是 有 硬件 保护 ( 受 保护 ) 的 ,这 种 方法 使 用 硬件 和 
软件 来 强制 维护 任务 间 相 互 作用 的 规则 。 在 受 保护 的 系统 里 , 当 访问 权限 非法 时 ,硬件 就 会 
产生 一 个 异常 方式 来 保护 存储 空间 ,然后 软件 作出 哆 应 ,以 处 理 该 异常 和 管理 基于 存储 器 的 
S. 

ARM 中 的 MPU 使 用 区 域 作为 系统 保护 的 主要 概念 。 区 域 是 一 个 存储 空间 属性 的 集 
合 ,也 代表 一 个 具有 特定 属性 的 逻辑 存储 空间 。 区 域 可 以 重 倒 ,这 样 就 可 以 使 用 背景 区 域 来 
保护 睡眠 任务 的 存储 空间 不 受 当前 运行 任务 的 非法 访问 。 

初始 化 MPU 需要 多 个 步骤 ,本 章 介绍 了 设置 各 种 区 域 属性 的 例 程 。 第 1 步 是 使 用 
CP15;c6 来 设置 指令 区 域 和 教 据 区 域 的 大 小 和 位 置 ;第 2 步 是 使 用 CP15:e5 来 设置 每 个 区 
域 的 访问 权 黑 ;第 3 步 是 分 别 使 用 CP15;c2 和 CP15;c3 来 设置 每 个 区 域 的 cache 和 写 缓 冲 
器 属性 最 后 一 步 是 使 用 CP15:e6 来 使 能 活动 的 区 域 ,并 使 用 CP15;cl 来 使 能 cache, EA 
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ШЗ MPU, 

本 章 最 后 介绍 了 一 个 简单 的 多 任务 环境 示例 系统 。 系 统 有 3 个 任务 ,保护 每 个 任务 不 
SE HUE 2 个 任务 的 非法 访问 。 示例 系 统 首 先 定义 一 个 受 保护 系统 ,然后 显示 了 如 何 初始 化 
Е. 初始 化 以 后 ,运行 一 个 受 保 护 系 统 的 最 后 一 个 步骤 :在 任务 切换 时 ,针对 下 一 个 任务 改 
变 区 域 分 配 。mpusLOS 是 一 个 包含 该 示例 系统 的 受 保 护 操作 系统 的 功能 性 实例 。 
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存储 管理 单元 
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在 创建 多 任务 构 入 式 系 统 时 ,最 好 由 一 个 简单 的 方式 来 编写 ,装载 及 运行 各 自 独 立 的 任 
5. 目前 的 很 多 工人 趟 系统 不 再 使 用 自己 定制 的 控制 系统 ,而 使 用 操作 系统 来 简化 这 个 过 
程 。 较 高 级 的 操作 系统 采用 基于 硬件 的 存储 管理 单元 ММО, 

MMU 提供 的 一 个 关键 服务 是 ,能 使 各 个 任务 作为 各 自 独 立 的 程序 在 其 自己 的 私有 存 
铺 空 间 中 运行 。 在 带 ММО 的 操作 系统 控制 下 ,运行 的 任务 光 须 知道 其 它 与 之 无 闫 的 任务 
的 存储 需求 情况 ,这 就 简化 了 各 个 任务 的 设计 。 

第 13 章 介 绍 了 带 有 存储 保护 单元 MPU 的 处 理 器 核 。 这 些 内 核 只 含 一 个 可 寻 址 的 物 
理 存 情 空间 ,处 理 器 核 运行 任务 时 所 产生 的 地 址 直接 用 来 访问 主 存 。 这 样 ,如 果 2 个 程序 纺 
译 时 使 用 重合 的 地 址 ,那么 它们 不 能 同时 驻 留 在 主 存 中 。 这 使 得 在 媒人 式 系统 中 运行 多 个 
任务 比较 困难 ,因为 每 个 任务 都 必须 运行 在 主 存 的 不 同 地 址 块 中 。 

MMU 简化 了 任务 编程 ,因为 它 提供 了 一 些 资源 ， IA fe Yr FUE LAE IE SE OE ЖЕ, virtual 
memory) — — RIAR T ELM ESTE DERE TEES 8), MMU 作为 转换 器 ,将 程序 
和 数据 的 虚拟 地 址 (编译 于 虚 存 中 的 地 址 ) 转 换 为 实际 的 物理 地 址 , 即 在 物理 主 存 中 的 地 址 。 
这 个 转换 过 程 允许 运行 的 多 个 程序 使 用 相同 的 惠 拟 地 址 ,而 各 自 存 情 在 物理 存储 器 的 不 同 
fr. 

从 这 样 2 个 角度 看 存储 器 ,存储 器 就 有 2 ЖЖ RE ВАНЬ ГЕ ВАЕ, “ПИ 
一 由 编译 器 和 连接 器 在 定位 程序 时 分 配 : 勤 再 疡 在 用 来 访问 实际 的 主 存 硬件 模块 (物理 上 程 
序 放 在 这 里 )。 

ARM 公司 提供 了 多 种 集成 有 MMU 硬件 的 处 理 器 核 。 这 些 MMU 硬件 有 效 地 使 用 中 
存 来 支持 多 任务 环境 。 本 章 的 目的 就 是 ,学 习 ARM 存 情 管理 单元 的 一 些 基 本 知识 和 有 关 
虚 存 使 用 的 一 些 基 本 概念 。 

本 章 首 先 回顾 一 下 MPU 的 保护 特性 ,然后 提出 一 些 由 MMU 提供 的 其 它 特 性 。 这 里 
将 介绍 重 定位 寄存 器 (relocation register), 它 保存 用 来 将 虚拟 地 址 转换 为 物理 地 址 的 转换 
数据 :将 介绍 转换 旁 路 缓冲 器 (TLB) ' 它 是 一 个 存放 最 近 地 址 重 定位 信息 的 高 速 绥 存 ;将 介 
绍 如 何 使 用 页 和 页 表 来 配置 重 定位 寄存 器 ， 

接 下 来 ,要 讨论 如 和 何 通过 配置 瞄 存 中 的 页 块 (biocks of pages) 来 创建 区 域 。 在 概述 部 分 
的 最 后 ,将 演示 如 何 使 用 MMU 和 页 表 来 支持 多 任务 ， 

将 详细 说 明 如 何 配置 MMU 硬件 ,分 别 介绍 ARM MMU 的 每 个 组 成 部 件 ,页 天 .转换 
旁 路 缓冲 器 (TILB)、 访 问 权 限 cache 和 写 缓冲 器 ,控制 寄存 器 CP15;cl ,以 及 快速 上 下 文 切 
Ж} Ж FCSE(Fast Context Switch Extension), 

本 章 的 最 后 将 提供 一 个 永 例 虱 序 来 演示 如 何 使 用 起 看 建立 一 个 嵌入 式 系统 。 示 例 程序 
支持 3 个 任务 运行 在 多 任务 环境 中 ,并 演示 如 何 保护 系统 中 的 每 个 任务 不 受 其 它 任务 的 时， 
啊 。 这 些 任务 被 编译 运行 在 同一 个 虚 存 执行 地 址 ,而 放 在 物理 存储 器 的 不 同位 置 。 示例 的 
主要 部 分 是 演示 如 何 配置 MMU, 以 将 一 个 任务 的 虚拟 地 址 转换 为 物理 地 址 ,以 及 如 何在 全 
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务 间 切换 ， 
本 章 将 示例 程序 集成 到 第 11 章 介绍 的 SLOS 镶 作 系统 中 ,成 为 mmuSLOS, 






14.1 从 MBEU 到 MMU 





第 13 章 介 绍 了 带 有 存储 保护 单元 MPU 的 ARM 核 ,在 那里 引 人 了 “区域 (region) "f 
概念 ,以 方便 组 织 和 保护 存储 器 。 区 域 可 以 是 活 唉 的 ,也 训 以 是 睡眠 的 :活跃 区域 包 含 当 前 
系统 正在 使 用 的 代码 或 数据 ;睡眠 区 域 包含 当前 不 使 用 ,但 可 能 在 短 时 间 肉 变 为 活路 的 代 窒 
或 数据 。 睡 眠 区 域 是 被 保护 的 ,因此 当前 正在 运行 的 任务 是 不 能 访问 它 的 。 

$1.1 MPU 的 区 域 属 性 MPU 有 专门 的 硬件 来 给 区 域 分 配属 性 。 可 以 分 

一 一 一 一 一 一 一 一 一 。 配给 区 域 的 属性 如 表 14.1 所 列 。 
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本 章 假设 读者 已 经 理解 了 第 13 章 中 关于 存储 保 
` 护 的 概念 ,因此 只 简单 介绍 如 何 配置 MMU 中 的 保护 
起 始 地 址 hti 硬件 
大 小 4 KB i MPU 和 MMU 的 主要 区 别 是 , ММО 中 增加 了 
M 额外 的 硬件 ,以 支持 虚 存 ;同时 MMU 硬件 将 表 14. 1 
cache BORNE 所 列 的 区 域 属性 从 CP15 寄存 器 移 到 主 存 中 的 表 , 从 
ЕЕ 使 能 .禁用 


而 增加 了 有 效 区 域 的 数目 。 
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14.2 虚 存 如 何 工作 





第 13 章 介绍 了 MPU 并 演示 了 一 个 多 任务 嵌 人 式 系统 。 该 系统 的 每 个 任务 被 编译 和 
运行 在 彼此 不 同 的 ,固定 的 主 存 地 址 空间 ,每 个 任务 只 能 在 一 个 进程 空间 中 运行 ,任何 2 个 
任务 都 不 能 在 主 存 中 有 重 麦 地 址 。 为 了 运行 一 个 任务 ,一 个 保护 区 域 被 放置 在 图 定 地 址 的 
程序 上 ,以 允许 任务 访问 由 该 区 域 定义 的 一 段 存 储 空间 。 保 护 区 域 的 放置 使 得 该 任务 得 以 
运行 ,而 其 它 任务 空间 被 保护 ， 

在 ММО 中 ,即使 任务 被 编译 .连接 ,运行 在 主 存 中 有 重大 地 址 的 区 域 中 ,它们 仍然 可 
以 运行 。MMU 中 对 刀 存 的 支持 可 使 构建 后 的 嵌入 式 系统 具有 多 个 虚拟 存储 器 映射 和 单个 
物理 存储 器 映射 。 每 个 任务 拥有 自己 的 虚拟 存储 器 映射 ,以 编译 和 连接 组 成 此 任务 的 代码 
和 数据 。 内 核 层 管理 各 个 任务 在 物理 存储 器 中 的 放置 ,使 得 它们 在 物理 存储 器 中 拥有 彼此 
不 同 的 地 址 ,这 个 地 址 与 其 设计 时 的 上 拟 运行 地 址 不 一 样 。 
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为 了 使 任务 有 各 自 的 虚拟 存储 器 映射 ,MMU Ж kE 3: FRU Л EE fz (address reloca- 
tion) , 即 在 地 址 访问 主 存 之 前 ,转换 由 处 理 器 核 输出 的 存储 器 地 址 。 可 认为 在 介 于 内 核 和 
主 存 间 的 MMU 中 有 一 个 重 定位 寄存 器 ,这 样 就 能 很 容易 地 理解 这 个 转换 过 程 。 

当 处 理 器 核 产 生 一 个 虚拟 地 址 时 , MMU 取出 这 个 虚拟 地 址 的 高 位 ,并 用 重 定位 寄存 器 
内 的 值 蔡 换 它 , 从 而 形成 一 个 物理 地 址 ,如 图 14.1 所 示 。 








虚拟 物理 
存储 器 存储 器 


Б 
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图 14.1 使 用 重 定位 寄存 器 将 一 个 任务 从 虚拟 存储 器 映射 到 物理 存储 器 

虚拟 地 址 的 低位 部 分 是 一 个 偏 移 量 , 它 转换 成 物理 存储 器 的 一 个 特定 地 址 。 使 用 这 种 
方法 可 以 转换 的 地 址 范围 由 这 个 虚拟 地 址 偏 移 量 部 分 的 最 大 值 所 决定 。 

14. 1 所 示 的 例子 表示 一 个 被 编译 成 以 虚拟 存储 器 的 0x4000000 为 起 始 运行 地 址 的 
任务 , 重 定位 寄存 器 将 任务 1 的 虚拟 地 址 转换 成 以 0x8000000 开始 的 物理 地 址 。 

第 2 个 同样 被 编译 成 在 这 个 虚拟 地 址 (在 这 里 是 0x4000000) 运 行 的 任务 ,可 以 被 放置 
在 任何 其 它 以 0x10000(64 KB) 为 倍数 的 地 址 的 物理 存储 器 上 ,而 只 需 简 单 地 改变 一 下 重 定 
位 寄存 器 的 值 , 就 可 以 将 它 映 射 到 0x4000000 处 。 

一 个 重 定位 寄存 器 只 能 转换 一 块 存储 空间 。 这 块 存储 空间 的 大 小 由 虚拟 地 址 的 偏 移 量 

部 分 所 占 的 位 数 所 决定 。 这 样 的 一 块 虚拟 存储 空间 称 为 一 页 (page)， 而 转换 过 程 中 所 对 应 
的 那 块 物理 存储 空间 称 为 一 个 页 航 (page тате), 

页 .MMU 以 及 页 帧 之 间 的 关系 如 图 14. 2 所 示 。ARM MMU 硬件 有 多 个 重 定 位 寄存 
器 来 支持 虚拟 地 址 到 物理 地 址 的 转换 ,MMU 需要 多 个 重 定位 寡 存 器 来 有 效 地 支持 虚 存 , 因 
为 系统 必须 将 多 个 页 转换 到 多 个 页 帧 。 
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图 14.2 支持 虚 存 系统 的 组 成 部 件 


ARM MMU 中 临时 存放 转换 数据 的 一 组 重 定位 寄存 器 实际 上 是 一 个 由 64 个 重 定位 寄 
存 器 组 成 的 全 相 联 cache, X" cache 称 为 转换 旁 路 缓冲 器 (TLB)。TLB 缓存 最 近 被 访问 
的 页 的 转换 数据 。 

除了 使 用 重 定位 寄存 器 外 , MMU 还 使 用 主 存 中 的 表 来 存放 描述 系统 中 用 到 的 虚拟 存 
储 器 映射 的 数据 ,这 些 转换 数据 的 表 称 为 页 玫 (page tables) 。 页 表 中 的 每 个 项 代表 了 将 虚 
拟 存储 器 的 一 个 页 转换 到 物理 存储 器 的 一 个 页 帧 所 需 的 所 有 信息 。 

Juk rB ДЕЛЖ РТЕ(Ра е Table Entry) 包含 关于 一 个 虚拟 页 的 以 下 一 些 信息 : 
用 于 将 虚拟 页 转换 为 物理 页 帧 的 物理 基地 址 ;分 配给 该 页 的 访问 权限 ;页 的 cache 和 写 缓冲 
器 配置 。 如 果 参 照 表 14. 1, 会 发 现 MPU 的 大 部 分 区 域 配置 数据 现在 都 保存 在 页 表 项 中 。 
这 意味 着 ,访问 权限 cache 和 写 缓冲 器 的 行为 都 以 页 大 小 为 粒度 进行 控制 ,这 在 存储 器 的 
使 用 上 提供 了 更 好 的 控制 。MMU 中 的 区 域 由 软件 通过 将 存储 器 中 的 虚拟 页 块 进行 分 组 来 
创建 。 
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14.2.1 使 用 页 定义 区 域 


第 13 章 介 绍 了 使 用 区 域 来 组 织 和 控制 用 于 特殊 功能 (比如 任务 代码 和 数据 ,或 存储 器 
输入 /输出 ) 的 各 块 存储 空间 ,在 那里 区 域 被 看 作 是 MPU 体系 结构 的 硬件 组 成 部 件 。 在 
MMU 中 ,区 域 被 定义 为 一 组 页 表 的 集合 ,并 作为 虚 存 中 的 连续 页 完全 由 软件 控制 。 
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虚 存 中 的 一 页 在 页 表 中 有 一 个 对 应 的 项 ,因此 虚 存 的 一 组 连续 的 页 映射 到 页 表 的 一 组 
连续 的 项 。 这 样 ,区 域 可 以 被 定义 为 一 组 连续 的 页 表 项 的 集合 。 区 域 的 位 置 和 大 小 可 以 保 
存在 一 个 软件 数据 结构 中 ,而 实际 的 转换 数据 和 属性 信息 保存 在 页 表 中 。 

图 14. 3 所 示 的 例子 表示 一 个 任务 有 3 个 区 域 : 一 个 用 于 代码 ,一 个 用 于 数据 ,第 3 个 用 
于 支持 任务 堆栈 。 虚 存 中 的 每 个 区 域 映射 到 物理 存储 器 的 不 同 块 。 图 中 ,可 执行 代码 放 在 
Flash 中 ,数据 和 堆栈 放 在 RAM 中。 区域 的 这 种 使 用 方法 是 支持 任务 间 共 享 代码 的 操作 系 
统 的 典型 用 法 。 








В 
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图 14.3 # ММО ARM 中 页 映射 到 页 帧 的 例子 


除了 一 级 (L1) 页 表 外 ,所 有 其 它 的 页 表 都 代表 虚 存 的 1 MB 空间 。 如 果 一 个 区 域 的 大 
小 大 于 1 MB 或 者 它 跨 过 页 表 的 1 MB 边界 地 址 ,那么 就 必须 用 一 组 页 表 来 描述 这 个 区 域 。 
一 个 区 域 的 页 表 总 是 来 自 L1 页 表 的 连续 页 表 项 ,然而 在 物理 存储 器 中 的 L2 页 表 的 位 置 不 
需要 是 连续 的 。14. 4 节 将 更 全 面 地 介绍 页 表层 次 。 
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14.2.2 多 任务 和 MMU 


页 表 可 以 驻 留 在 存储 器 中 ,而 不 必 映 射 到 MMU 硬件 。 构 建 一 个 多 任务 系统 的 一 种 方 
法 是 ,创建 几 组 独立 的 页 表 , 每 组 页 表 对 应 一 个 任务 的 惟一 虚 存 空间 。 为 了 激活 茶 个 任务 ， 
对 应 这 个 任务 的 那 组 页 表 和 其 虚 存 空间 由 MMU 使 用 ,而 其 它 没有 被 激活 的 页 表 则 代表 睡 
了 眠 的 任务 。 这 种 方法 使 得 所 有 的 任务 都 驻 留 在 物理 存储 器 中 。 当 上 下 文 切换 发 生 以 激活 一 
个 尾 务 时 ,这 个 任务 又 能 立即 可 用 。 

通过 在 上 下 文 切 换 时 激活 不 同 的 页 宕 ,使 得 执行 有 重合 虚拟 地 址 的 多 个 任务 成 为 可 能 ， 
MMU 可 以 重 定位 一 个 任务 的 执行 地 址 ,而 无 需 在 物理 存储 器 中 移动 这 个 任务 。 任务 的 物 
理 存 储 空间 只 是 简单 地 通过 激活 和 不 激活 页 小 来 映射 到 囊 拟 存储 空间 。 图 14, 4 所 示 为 
3 个 有 各 自 页 表 集 合 的 任务 (它们 运行 在 同一 个 虚拟 她 址 0x0400000) 的 3 幅 图 。 

图 14.4{a) 中 ,任务 1 正在 运行 ,任务 2 和 任务 3 处 于 睡眠 状态 ;图 14. 4(b) 中 ,任务 2 
正在 运行 ,任务 1 和 和 任务 3 处 于 睡眠 状态 ;图 14. 4(c) 中 ,任务 3 正在 运行 ,任务 1 和 任务 2 
处 于 睡眠 状态 。 每 个 子 图 中 的 虚拟 存储 器 代表 正在 运行 的 任务 看 到 的 存储 空间 。3 个 子 图 
的 物理 存 悄 天 是 一 样 的 ,因为 它 代表 真正 的 物理 存储器 的 实际 状态 。 

图 14.4 还 表示 出 活 既 的 页 表 和 睡眠 的 页 表 , 只 有 正在 运行 的 任务 才 有 活 唉 的 页 表 集 
A. 睡眠 任务 的 页 表 驻 留 在 特权 物理 存储 空间 中 ,不 能 被 正在 运行 的 任务 所 访问 。 这 样 就 
完全 哥 护 睡眠 任务 不 受 活 唉 任务 的 影响 ,因为 从 虚拟 存储 器 中 不 能 映射 到 睡眠 任务 物理 
空间 。 

当 页 者 被 激活 或 不 激活 时 ,虚拟 地 址 到 物理 地 址 的 映射 关系 也 随 着 改变 ， 因 此 ,每 次 激 
活页 表 后 ,访问 虚 存 的 一 个 地 址 可 能 突然 转换 成 物理 存储 器 的 一 个 不 同好 址 .第 12 W 00 S 
提 至 ,一些 ARM 处 理 器 核 有 一 个 逻辑 cache, 用 来 看 情 (缓存 作用 ) 喉 拟 存 情 骨 中 的 数据 。 
当 刚 刚 提 及 的 地 址 转换 发 生 时 ,cache 可 能 包含 无 效 的 .从 旧 的 页 表 映 射 来 的 虚拟 数据 。 为 
了 保证 存储 器 数据 的 一 致 性 ,cache 下 能 须 清 除 和 清理 。TLB 可 能 也 须 清 除 , 因为 它 也 可 能 
ЯПОН," 

最 然 清 除 和 清理 cache 及 TLB 会 使 系统 的 执行 速度 有 所 降低 ,但 是 清除 和 清理 cache 
中 过 时 的 数据 和 代码 以 及 TLB 中 过 时 的 转换 物理 地 址 ,可 避免 系统 因 使 用 无 效 的 数据 而 发 
EAR. 

上 下 文 切 换 时 ,并 不 需要 在 物理 存储 器 中 称 动 页 表 数 据 , 而 只 须 改 变 指向 页 表 位 置 的 
指针 。 | 

任务 间 切 换 需要 以 下 步 又 : 


« 关于 清除 和 清理 cache HAXE 12.5 节 。 一 一 译 者 注 
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Q 保存 活 牙 任务 的 上 下 文 , 并 将 该 任务 置 为 睡眠 坊 ; 

D 清除 cache, 如 果 使 用 回 写 策略 , 则 要 清理 D-cache; 

D 清除 ТВ. ДАЛП Л Е ЕЕЕ ЕДЕ; 

D ЕЖ MMU ,以 使 用 新 的 页 表 , 把 虚拟 运行 空间 转换 为 被 唤醒 任务 在 物理 存储 器 中 

的 位 置 ; 

О 恢复 被 唤醒 任务 的 上 下 文 ; 

О duos mes. 

ER: ТЕЕ АЕТ ХЫ И SERIE ARMS 系列 中 可 以 采用 cache ES Ke, EE E 
Ж cache 需要 对 CP15 FARELER MERE сапе АВАВ ТЕВЕ ТЫВ 
ЯВ cache 6 RE ET XA EE, ЕКЕ, ИЕ ОЖД ДЫЛЫН 
AF, аи Ж ЖЮЗ ИЕ ЛЕЛЯ КЕ D HERO Ж, ERAASESNE ME, 


使 用 这 种 简化 是 因为 大 部 分 系统 使 用 Flash 存储 器 作为 非 易 失 性 存储 介质 ,而 在 系统 
运行 时 将 程序 复制 到 RAM 中 。 如 果 系 统 会 有 文件 系统 并 使 用 动态 分 页 ,那么 应 该 采用 
cache 问 写 策略 ,因为 对 文件 系统 存储 介质 的 访问 时 间 通 常 是 访问 RAM 时 间 的 凡 十 倍 至 上 
Ti. 

如 果 在 性 能 分 析 后 ,发现 采 用 直 写 策略 的 效率 不 高 ,那么 采用 cache 回 写 策略 ,性 能 就 
能 得 到 政 善 。 如 果 使 用 磁盘 驱动 器 或 其 它 非常 慢 的 2 ФР ИЕ ОШ). ИШ ЖЕ ELE ЩЫ 
该 是 没 错 的 。 

上 面 的 讨论 仅仅 适用 于 使 用 逻辑 cache 的 ARM 核 。 如 果 使 用 物理 cache, 像 ARMI1 
系列 , 则 当 ММО 改变 虚 存 映射 时 ,cache 中 的 信息 仍然 有 效 。 这 样 , 就 不 需要 在 改变 虚拟 
存储 地 址 时 执行 cache 管理 操作 cache 方面 的 更 多 知识 ,请 参见 第 12 章 ， 


14.2.3 虚 存 系统 的 存储 器 组 织 


典型 的 ,页 表 存放 在 主 存 的 一 块 空间 中 ,虚拟 地 址 到 物理 地 址 的 映射 是 固定 的 。 所 请 
“国定 的 ”是 指 通 常 操作 中 ,页 表 中 的 数据 是 不 会 发 生变 化 的 ,如 图 14. 5 所 示 。 存 储 器 中 的 
这 块 固定 空间 还 包含 操作 系统 内 核 以 及 其 它 一 些 进程 ， 从 图 14. 5 中 可 以 看 到 ,包含 TLB 
的 MMU 是 在 虚拟 或 物理 存储 空间 之 外 操作 的 硬件 ,其 功能 是 在 2 个 存储 空间 之 间 转 换 
地 址 。 

这 种 固定 映射 的 好 处 在 上 下 文 切 换 中 可 以 看 到 。 把 系统 软件 放 在 一 个 固定 的 虚拟 存储 
名 位 置 , 这 样 就 消除 了 一 些 存储 器 管理 任务 和 流水 线 影响 一 如果 处 理 器 正在 一 块 忠 拟 容 
间 上 执行, 突然 这 块 虚 拟 空间 重新 映射 到 另外 一 块 不 同 的 物理 空间 引起 的 

当 在 2 个 应 用 程序 任务 间 实 现 上 下 文 切 换 时 ,处 理 器 其 实 要 发 生 多 次 上 下 文 切换 ， 它 
先 从 用 户 模式 任务 切换 到 内 核 模式 任务 ,以 处 理 准备 运行 下 一 个 应 用 程序 任务 时 的 上 下 文 
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图 14.5 使 用 MMU 的 系统 存储 器 组 织 


数据 的 移动 ;然后 , 它 从 内 核 模式 任务 切换 到 下 一 个 上 下 文 的 新 的 用 户 模式 任务 。 

通过 在 虚 存 的 一 块 固定 空间 (对 所 有 用 户 任务 都 可 见 的 ) 上 共享 系统 软件 ,一 个 系统 调 
用 可 以 直接 跳 转 到 这 块 系统 空间 ,而 不 必 担心 需要 将 页 表 改 为 映射 到 内 核 进程 中 。 将 内 核 
代码 和 数据 映射 到 所 有 任务 的 同一 个 虚拟 地 址 ,避免 了 需要 改变 存储 器 映射 ,并 且 避 免 了 需 
要 有 消耗 一 个 时 间 片 的 独立 内 核 进程 。 

跳 转 到 一 个 固定 的 内 核 空间 也 避免 了 流水 线 结构 中 固有 的 问题 。 处 理 器 核 正在 一 块 存 
储 空间 内 运行 代码 ,如 果 这 块 存 储 空间 改变 了 地 址 ,内 核 已 经 从 原来 的 物理 存储 空间 中 预 取 
了 几 条 指令 , 则 在 新 指令 从 新 映射 的 存储 空间 中 取出 并 填充 流水 线 时 ,已 经 预 取 的 几 条 指令 
会 被 执行 。 除 非特 别 小 心 , 否 则 执行 原来 的 存储 映射 的 流水 线 中 的 指令 可 能 会 破坏 程序 的 
正常 执行 。 

这 里 建议 在 固定 的 地 址 空间 (该 地 址 空间 的 虚拟 地 址 到 物理 地 址 的 映射 是 一 直 不 变 的 ) 
中 执行 系统 代码 时 激活 页 表 。 这 种 方法 保证 了 用 户 任务 间 的 安全 切换 。 

许多 嵌入 式 系统 不 使 用 复杂 的 虚 存 ,而 只 简单 地 创建 一 个 “固定 的 ”虚拟 空间 映射 来 合 
并 所 有 的 物理 空间 。 这 些 系统 通常 收集 分 布 在 大 的 地 址 空间 内 的 多 块 物理 存储 块 ,使 其 成 
为 一 个 连续 的 虚拟 存储 块 。 通 常 它们 在 初始 化 过 程 中 创建 一 个 “固定 的 ”映射 ,该 映射 在 系 
统 操作 期 间 保 持 不 变 。 
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14.3 ARM MMU 的 详情 


ARM MMU 执行 以 下 一 些 功 能 :将 囊 氛 地 址 转换 成 物理 地 址 ;控制 存储 访问 权限 ; 决 
定 存储 路 中 每 一 页 的 cache WIS РИ ИЙТ ОВ. ЭЖЕН MMU 时 ,所 有 的 虚拟 地 址 一 一 竖 
射 到 与 其 相同 的 物理 地 址 。 如 果 MMU 在 转换 一 个 地 址 时 失败 ,就 会 产生 一 个 中 止 异常 。 
MMU 只 有 在 转换 失败 ,权限 错误 和 域 (domain) 错 误 时 , 才 会 中 止 。 

MMU 的 主要 软件 配置 和 控制 模块 如 下 : 


e us 

e RS EANMSOLBD; 
e 域 和 访问 权限 ， 

@ cache 和 写 缓冲 器 ; 

e CP15.cl 控制 寄存 器 ; 
° 快速 上 下 文 切换 扩展 。 


后 续 章 节 将 详细 介绍 这 些 操作 以 及 如 何 配置 这 些 模块 。 
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ARM MMU 硬件 采用 2 级 页 甫 结构 :一 级 页 表 (L1) 和 二 级 页 表 (L2) 。 

一 级 页 表 只 有 一 个 L1 F W 2 GI master page table). L1 主页 表 包 会 2 种 类 型 的 页 
天 项 ,保存 指向 二 级 页 表 起 始 地 址 指针 的 页 表 项 和 保存 用 于 转换 1 MB 页 的 页 表 项 。1.1 + 
ДЕШКЕ ШЖ (section page table ) , 

LI 主页 表 将 4 GB 的 地 址 空间 划分 为 多 个 МВ HR ection), AE L1 RAES 
4 096 个 页 表 项 。L1 主页 表 是 一 个 混合 表 , 可 作为 L2 页 表 的 页 目录 ,也 可 作为 用 于 转换 1 
MB 虚拟 页 ( 称 为 一 段 ) 的 普通 页 家。 当 Ll 页 囊 作 为 页 目录 时 ,其 页 天 项 (PTE}) 包 会 的 是 代 
表 1 MB ДА [B| Bj L2 Bi (coarse) AA R L2 39 (fine) Я з НІНЕ: L 页 表 用 于 转换 一 
个 1 MB 的 段 时 ,其 页 表 项 (PTE}) 包 含 的 蚌 物 理 存储 器 中 1 МВ bi (page frame) 的 首 地 
址 。 目 录 页 表 项 和 1 MB 的 段 页 表 项 可 以 共存 于 L1 TRE, 

一 个 L2 EUR d 256 个 页 表 项 ,占用 1 KB 的 主 存 空 间 , 每 个 页 表 项 将 一 个 4 KB 的 虚 
拟 存 储 块 转换 成 一 个 4 KB 的 物理 存储 块 。 粗 页 表 支 持 4 KB 或 64 KB 的 页 ,页 表 项 包含 的 
是 4KB 或 64 KB 的 页 由 的 首 地 址 。 如 果 转 换 的 是 一 个 64 KB 的 页 , 则 对 于 每 个 64 KB 的 
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页 ,同一 个 页 表 项 必须 在 页 表 中 重复 16 K. 
— L2 НТ 024 个 页 表 项 ,占用 4 KR 的 主 存 空间 ， 每 个 页 表 项 转换 一 个 1 KB 
的 存储 块 。 细 页 表 支 持 1 KB,4 KB 或 64 KB 虚 存 页 ,每 个 页 表 项 包含 1 KB,4 KB 或 64 KB 
物理 页 帕 的 首 地 址 。 如 果 转 换 的 是 4 KB 的 贞 , 则 同 -~ 个 页 表 项 必须 在 页 表 中 连续 重复 
4 次 ;如 果 转 换 的 是 64 KB 的 页 , 则 同一 个 页 表 项 需要 在 页 表 中 连续 重复 64 次 。 
表 14.2 概括 了 ARM MMU 中 3 种 类 型 页 表 的 特征 。 
表 14.2 MMU 中 司 用 的 页 吉 





SHUN мәшәбюируу Aiouust bi 





£L # 类 型 页 六 占用 的 至 铺 空间 /KE 支持 的 页 大 小 /KB ЕЛ: 
让 责 表 / 段 页 表 —# (LI) 15 1024 4 096 
8m —#B(L2) 1 1.4 ak 64 1 024 
iux 88012) 1 4 sk 64 256 
14.4.1 一 级 页 表 项 
一 级 页 表 支 持 4 种 类 型 的 页 表 项 ， 
@ 1 MB BHRI, 


e 指 问 L2 细 页 表 的 目录 项 ， 
e 指向 L 粗 页 表 的 目录 项 ; 
e 产生 中 上 上 异常 的 错误 项 ， 


系统 通过 页 表 项 的 最 低 2 位 [1:0] 来 确定 页 表 项 的 类 型 。 页 表 项 的 格式 要 求 L2 页 表 
的 地 址 必须 与 其 页 大 小 的 倍数 对 齐 。L1 页 表 的 各 种 页 表 项 格式 如 图 14. 6 BER. 

一 个 段 页 表 项 指向 一 个 1 MB 的 存储 段 。 页 表 项 的 高 12 位 代替 虚 地 址 的 高 12 位 来 产 
生物 理 地 址 。 段 页 表 项 还 包 合 域 属性 、cache 属性 、 缓 冲 器 属性 和 访问 权限 属性 ,这 些 将 在 
14,6 节 讨 论 ， 

粗 责 表 项 包含 一 个 L2 粗 页 表 首 地 址 的 指针 ,同时 还 包含 11 表 项 代表 的 MB ETE 
的 域 信息 。 粗 页 表 必 须 与 КВ 的 倍数 地 址 对 齐 。 

组 页 表 项 包含 一 个 L2 册页 表 首 地 址 的 指针 ,同时 还 包含 L1 表 项 代表 的 1 MB EFE 
的 域 信 息 。 细 页 表 必 须 与 4 KB 的 倍数 地 址 对 齐 。 

销 误 页 表 项 产生 一 个 存储 页 错误 。 错 误 条 件 会 导致 预 取 指 中 止 或 数据 中 止 ,这 取决 于 
具体 的 存 情 器 访问 类 型 ， 

Li 主页 表 在 存储 器 中 的 位 置 通 过 写 СРІ5.07 寄存 器 设置 
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31 2019 12111098 543210 

" ww {ер peeh 
31 1098 543210 

粗 页 表 基地 址 Eg 中 
31 12111098 543210 

" zu 
3l 210 

eal 0 0 0 |} 

SBZ= 须 为 0 的 位 {should be zero) 
围 14.6 LI RA 


14.4.2 LI 转换 表 基 地 址 


CP15:c2 寄存 器 保存 转换 表 基 地 址 TTB(Translation Table Base address) 一 一 指向 Ll 
主页 表 在 虚 存 中 的 位 置 。CP15,c2 寄存 器 的 格式 如 图 14.7 BR, 





3i .14 13 0 
SBZ- AU ОИ (should be zero) 


ы. 
14.7 HEE СРІ5:с2 

К 14.10] 一 个 称 为 ttbSet ЙЕ, WEE LI 主页 表 的 ТТВ. 

ttbSet 例 程 使 用 МЕС 指令 来 写 CP15;c2;c0;0。 例 程 的 炒 数 原型 如 下 

void ttbSet(unsigned int ttb); 


传递 给 函数 的 惟一 参数 是 转换 未 的 基地 址 。TTB 地 址 必须 与 存储 器 的 16 KB 边界 
HF. 
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void ttbSet(unsigned int ttb? 


1 
ttb k= ÜxffffcOU0D0; 
__asmtMRC p15, 0, ttb, c2, c0, 0) /x 设置 转换 表 基 地 址 #/ 


x 14.4.3 二 级 页 表 项 


L2 BUR 种 可 能 的 页 表 项 (PTE): 


e 定义 64 KB XIBUS EE DOZ Clarge) MAM ; 
e 定义 4 KB TBA h (small) И; 

e 定义 1 КВАВ inn ИЖИ, 

e 访问 时 产生 页 错误 中 止 异 常 的 错误 页 表 项 。 


L2 页 表 的 页 表 项 格式 如 图 14. 8 所 示 。MMU 通过 页 表 项 的 最 低 2 位 来 确定 L2 页 表 


spun LIGLISGPUDIAE AIOLISYY pL 





项 的 闫 型 
31 1615 1211109876543210 
киа swawi | зы анатам 
485 
31 211098763432190 
I Sm 
31 109876543210 
ала нола з еу 
31 210 
wa| ___ | 
SBZ- 3085 fz (should be zero) 





图 14.8 LLASA 
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大 页 表 项 包含 一 个 64 KB 物理 存储 块 的 基地 址 ;同时 它 还 含有 4 组 权限 位 域 , 以 及 页 
的 cache 和 写 缓 冲 喘 属性 。 每 一 组 访问 权限 位 域 代表 虚 存 页 的 1/4, 这 些 页 表 项 可 以 看 成 是 
16 KB 子 页 ,以 更 好 地 控制 64 KB 页 的 访问 权限 。 

小 页 表 项 保存 一 个 4 KB 物理 存储 芯 的 基地 址 ,同时 它 也 含有 4 组 权限 位 域 ,以 及 页 的 
cache 和 写 缓冲 器 属性 ,等 一 组 权限 位 域 代表 虚 存 页 的 1/4, 这 些 页 表 项 可 以 看 成 是 1 KB 
于 页 ,以 更 好 地 控制 4 KB 页 的 访 间 权限 。 

微 页 表 项 提供 一 个 1 KB 物理 存储 块 的 基地 址 ,同时 它 含 有 一 个 访问 权限 位 域 ,以 及 页 
的 cache 和 写 缓冲 器 属性 。ARM v6 体系 结构 不 包含 微 页 ,如 果 打 算 创建 一 个 很 容易 移植 
到 以 后 体系 结构 的 系统 , 则 建议 在 该 系统 中 避免 使 用 1 KBAR. 

错误 页 表 项 产生 存储 页 访问 错误 。 错 误 条 件 会 导致 预 取 指 中 止 或 数据 中 止 , 这 取决 于 
具 悼 的 存 情 器 访问 类 型。 


14.4.4 ”为 嵌入 式 系 统 选 择 合适 的 页 大 小 


下 面 是 为 系统 设置 页 大 小 的 一 些 技巧 和 建议 ，; 


e 页 哉 小 ,给 定 物理 存储 块 就 有 越 多 的 页 帧 。 

e 页 越 小 ,内 部 碎片 会 越 少 。 内 部 碎片 是 指 一 页 中 未 使 用 的 存 情 空 间 , 比如 一 个 大 小 
为 9 KB 的 任务 可 以 放 在 3 个 4 KB 大 小 的 页 中 ,也 可 以 放 在 一 个 64 KB 大 小 的 页 
中 。 使 用 4 KB 页 ,有 3 KB 的 未 使 用 空间 ;而 使 用 64 KB 页 , 则 有 55 KB 的 未 使 用 
空间 。 

* 页 越 大 ,系统 就 起 有 可 能 装 入 引用 的 代码 和 数据 。 

e 二 级 存 铺 器 的 访问 时 间 增 加 时 ,选择 大 的 页 会 更 有 效 。 

e 随 着 页 的 增 大 ,每 个 TLB 条 目 代 表 存储 由 中越 大 的 空间 ,从 而 系统 可 以 缓存 更 多 的 
转换 数据 ,将 一 个 任务 的 所 有 转换 数据 装 入 ТІВ 的 速度 也 会 更 高 。 

e 如 果 使 用 1L2 粗 页 宕 , 则 每 个 页 天 占用 1 KB 的 存储 空间 ;每 个 L2 细 页 表 占 用 4 KB 
的 存储 空间 。 每 个 12 页 表 转 换 1 MB 的 地 址 空间 。 每 个 任务 使 用 的 最 大 页 表 存 储 
空间 为 ， 


(任务 大 小 /1 MB) D x (L2 页 表 大 小 ) (14.1) 
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14.5 ”转换 劳 路 缓冲 器 


转换 装 路 缓冲 器 (TLB) 是 一 个 存放 最 近 使 用 的 页 转 检 数据 的 特殊 cache, 它 将 一 个 虚拟 
页 联 射 到 一 个 活 坚 页 帧 ,并 存储 用 于 约 东 页 的 访问 的 控制 数据 ，TLB 是 一 个 cache, 因 此 有 
一 个 丢弃 (victim) 指 针 和 一 个 TLB 行 赫 换 策略 。 在 ARM 处 理 器 核 中 , 当 ТВ 失效 时 ， 
TLB 采 用 循环 算法 来 选择 替换 的 重 定位 寄存 囊 ， 

ARM 处 理 器 核 的 TLB 没有 很 多 用 来 控制 其 操作 的 软件 命令 ,TLE 只 支持 两 种 类 型 的 
命令 : 清除 (flush) TLB 和 锁定 TLB 中 的 转换 数据 。 

存 傅 器 访问 时 ,MMU 将 虚拟 地址 的 一 部 分 与 TLB 中 的 所 有 值 进行 比较 。 如 果 TLB 
中 已 有 所 要 的 转换 数据 , 即 为 一 次 TLB gp ug ТІВ 提供 物理 地 址 转换 数据 ， 

如 果 TLE 中 不 存在 有 效 的 转换 数据 , 即 为 一 次 TLB A3 , 则 MMU 会 由 硬件 自动 处 理 
TLB 失效 ,通过 主 存 中 的 页 表 搜 索 有 效 的 转换 数据 ,并 将 其 装 人 ТВ 的 64 行 中 的 一 行 。 
在 页 表 中 搜索 有 效 的 转换 数据 称 为 页 南 事 关 (page table walk) 。 如 果 找 到 一 个 有 效 的 页 者 
项 , 则 由 硬件 将 该 转换 地 址 从 页 表 项 复制 到 TLB 中 ,并 产生 访问 主 存 的 物理 地 址 ;如 果 最 后 
搜索 到 页 表 的 错误 页 表 项 , 则 MMU 硬件 产生 中 止 异常 。 

当 TLB 失效 时 ,在 将 数据 装 入 TLB 和 产生 所 需 的 地 址 转换 之 前 ,MMU 最 多 搜索 2 个 
页 表 。 由 于 MMU 转换 表 硬件 搜索 页 表 , 一 次 失效 的 开销 通常 是 1-2 个 主 存 访问 局 期 , 具 
体 的 周期 数 取 决 于 是 在 哪个 页 表 中 找到 转换 数据 的 。 如 果 在 L1 主页 表 中 就 找到 , 则 为 音 
步 页 表 搜 索 (singie stage page table walk); WEE L2 页 表 中 才 找 到 , 则 为 2 步 页 表 搜索 
(two-stage page table walk), 

如 果 ММО 产生 中 止 异 常 , 则 一 次 TLE 失效 可 能 会 消耗 更 多 的 额外 周期 ， E 35 rH ap 
异常 处 理 程序 映射 在 所 请 求 的 虚拟 空间 时 需要 额外 的 周期 。ARM720T 只 有 一 个 TLB. BÍ 
为 它 采 用 统一 总 线 体系 结构 。ARM920T,ARM922T, ARM926EJ - S 和 ARMIO26E] - S 
有 :个 TLB, 因 为 它们 采用 哈佛 总 线 体系 结构 :一 个 TLB 用 于 指令 转换 ,一 个 TLB 用 于 数 
据 转换 。 


14. 5.1 单 步 页 表 搜索 


如 果 MMU 搜索 的 是 1 MB 大 小 的 段 页 , 则 硬件 能 用 单 步 搜索 找到 所 要 的 页 表 项 ,因为 
1 MB 的 页 表 项 是 存放 在 Li 主页 表 里 的 。 

对 于 1 MB 段 页 转换 的 L1 页 表 的 页 表 搜 寻 如 图 14.9 所 示 。MMU 使 用 囊 地 址 的 基地 
址 部 分 (位 [31,20]) 来 选择 L1 主页 表 中 4 096 个 页 表 项 的 一 个 。 如 果 位 [1:0] 的 值 为 二 进 
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制 的 10, 则 此 页 表 项 含有 一 个 有 效 的 1 MB 页 可 用 。 页 表 项 中 的 值 被 复制 到 TLB 中 ,把 它 
与 虚拟 地 址 的 偏 移 量 部 分 合并 来 组 成 物理 地 址 。 
如 果 最 低 2 位 为 00, 则 发 生 错误 ;如 果 为 01 或 11, 则 MMU 执行 2 步 页 表 搜 索 。 
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地 址 


Е ЕР 


图 14.9 使 用 1 MB Ë L1 页 表 虚 实地 址 转换 


14.5.2 2 步 页 表 搜索 


ШЖ MMU 搜索 的 是 大 小 为 1 KB,4 КВ,16 KB 或 64 KB 的 页 , 则 页 表 搜索 须 执行 2 
步 才 能 找到 地 址 转换 数据 。 图 14. 10 详细 说 明了 搜索 保存 在 L2 粗 页 表 的 转换 数据 的 过 
程 。 这 里 虚拟 地 址 分 成 3 部 分 。 

第 1 步 ,用 L1 偏 移 量 部 分 索引 L1 主页 表 , 找 到 虚拟 地 址 的 L1 页 表 项 。 如 果 该 页 表 项 的 
最 低 2 位 是 二 进 制 的 01, 则 表示 该 页 表 项 包含 的 是 一 个 粗 页 的 L2 页 表 基 地 址 ( 见 图 14.6). 

第 2 步 ,将 L2 偏 移 量 部 分 合并 到 第 1 步 找到 的 L2 页 表 基 地 址 ,得 到 的 地 址 用 来 选择 
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图 14.10 使 用 粗 页 表 和 4 KB 页 的 二 级 虚实 地 址 转换 


包含 所 搜索 页 的 转换 数据 的 页 表 项 。MMU 将 L2 页 表 项 的 数据 复制 到 TLB, 基 地 址 与 虚 
拟 地 址 的 偏 移 量 部 分 合并 起 来 组 成 所 请 求 的 物理 存储 器 地 址 。 


14.5.3 TLB 操作 


如 果 操 作 系 统 改变 了 页 表 中 的 数据 ,那么 缓存 在 TLB 中 的 转换 数据 可 能 就 不 再 有 效 
了 。 处理 器 核 有 一 些 CP15 命令 ,用 于 清除 TLB, 从 而 作废 TLB 中 的 数据 。 以 下 是 一 些 可 
用 的 命令 ( 见 表 14. 3) :清除 所 有 TLB 数据 ,清除 指令 TLB, 清 除数 据 TLB, 也 可 以 一 次 只 清 
除 一 行 TLB 数据 。 
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$143 清除 TLB 的 CPIS:c7 命令 


M 








+ + MCR 指令 Rd 65 Ë RHAH 

个 所 有 TLE MCR р15, 0, Rd, ARMZ20T, ARM920T, ARM922T, ARMƏZSEJ - $, 
Ü 

АЖ сб, c7, 0 ARMIOZZE, ARM1026EF- S, StrongARM, XScale 





接 行 使 TLB MCR pl5, 0, Rd. 要 匡 之 无 将 的 ”ARM?720T 
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Ж eR, сї, 1 ЕЊЕ 
使 指令 ТІВ MUR 015, 0, Kd, ARMS20T, ARM022T, ARM026F -5, 
要 使 之 无 次 的 
无 效 ей, c5, 0 ARMIO22E, АЕМ1026Е] - S, 
ШЖ 
StrongARM, XScale 
iis МСЕ pi5, 0, Rd, . ARM9S20T, ARMS22T. ARMS325E] - 5, 
W (zn X 3 WJ 
ТІВ Xs cB, сө, 1 ARM1022E, ЛЕМ1026Е] - S, 
ЁШ ЖШ 
StrongARM, XScale 
全 数据 ТІВ MCR pl5, 0, Rd, ARM920T, ARMS22T, ARMS26EJ – S, 
жї X x e 
xx c8, cü, 0 ÁRMIO22E. ARMIO26E] - 5, 
虚拟 地 址 
Strong ARM, XScale 
按 行使 煞 据 МСЕ pl5, 0, Hd. ARM920T. ARMS822T, ARMBZSEJ - 5, 
Ж xm 
TLE XX r$, c6, 1 ARM1022E, ARMIO2BSE] - S, 
BE ELSE RE 


SirongA RM, XScale 
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[514.2] 一 个 使 TLB 无效 的 C 议程 : 


void flushTLB( void) 
i 


unsigned int cBformat = 0; 
. asm[|MCR, р15, 0, c8fornat, cB, c7, 0 ) к 清除 TLB / 


14.5.4 TLB 锁定 


ARMS920T, ARM922T, ARM926EJ - S, ARMi022E 和 ARMIO26E] - S 支持 TLB f 
换 数据 的 锁定 。 如 果 TLB 中 的 某 一 行 是 锁定 的 , 则 当 TLB 清除 命令 发 出 时 , 它 仍然 保留 在 
ТІВ 中 。 各 种 ARM 核 的 可 用 锁定 命令 如 表 14. 4 所 列 。 用 于 TLB 数据 锁定 的 MCR 指令 
使 用 的 内 核 寄存 器 Rd 的 格式 如 图 14.11 所 示 。 











+ + 
读数 据 TLE 
锁定 
ФЕ TLE 
ax 
读 指令 TLB 
锁定 
915% TLB 
锁定 
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表 14,4 访问 TLB 锁定 寄存 器 的 命令 


MCR #44 


МЕС pli: 
elo, е0, 0 


0, Rd, 


MRE р15, 0, Rd, 
с10, е0, Ó 


МЕС р15, 0, Rd. 
clo, c. 1 


МЕС р15, 0, Rd. 
10, c0, 1 


Rd 6548 
TLB 锁定 


ТІВ 


тае 


ТІВ 锁定 


支持 的 内 桩 
ARMB20T, ARMS22T, ARM926EJ - 5, 
ARMIOZZE, АКМ1026ЕЈ - 5, StrongARM, XScale 


ARM920T, ARMS22T. AKMBS26ET- S. 
ARMIO22E, ARM1026Ej - 5, StrongARM, XScale 


ARMS$20T, АЕМ92?Т, ARM926EJ - S, 
АЕМ1022Е, ARMIQ25EJ = S, StrongARM, XScale 


ARMS20T, ARM922T, ARMS26EJ — 5, 
ARMI022E, ARM!O28EJ - 5, StrongARM, XScale 





ARMS20T.ARM922T,ARM926EK-S.ARMIO22E 


31 26 25 2019 

*## SBZ 

ARMI1026EJ-S 

31 2928 2625 
SBZ= 须 为 0 的 位 





图 14.11 CP15:c10:c0 ЖЖЖ + 


14.6 ” 域 和 存储 器 访问 权限 


有 丙种 不 局 的 控制 用 来 管理 一 个 任务 的 存储 器 访问 权限 ЖЖ (domain) 用 于 主 控制 (pri- 
mary control) 1 页 表 中 的 入 向 灰 展 用 于 次 控制 (secondary control), 

在 共享 一 个 共用 虚拟 存储 器 映射 时 , 域 将 一 块 存储 空间 与 田 一 块 存储 空间 隔离 ,以 控制 
虚 存 的 基本 访问 。 有 16 种 不 同 的 域 可 以 分 配给 虚 存 的 1 MB 段 ,并 通过 设置 Li Xa 
CPTE) 中 的 域 的 有 关 位 (位 域 ) 来 分 配给 一 个 段 ( 见 图 14, 6), 


当 一 个 域 分 配给 了 一 个 纂 时 , 它 必须 遵守 分 到 给 这 个 域 的 访问 权限 。 域 的 访问 权限 在 
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CP15,c3 寄存 器 中 分 配 , 它 控制 处 理 器 核 访问 虚 存 段 的 能 力 ， 

16 个 可 用 的 城 ,每 个 域 值 用 CP15:c3 寄存 内 的 2 位 来 定 闵 访问 权 括 , 域 访问 位 取 值 及 
对 应 的 意义 如 表 14.5 所 列 。 图 14. 12 给 出 了 СР15.с3:с0 寄存 器 的 格式 , 它 保存 域 访 问 控 
制 信息 ,在 图 中 16 个 可 用 的 域 分 别 标 以 Do~D15。 

即使 不 使 用 MMU 提供 的 虚 存 功能 ,仍然 可 以 把 这 些 内 核 用 作 简 单 的 存储 保护 单元 ; 
首先 将 虚拟 存 情 空 间 直 和 楼 映 射 到 物理 存储 空间 ;然后 为 每 个 任务 分 配 一 个 不 同 的 域 ;最 后 使 
用 这 些 域 来 保护 睡 卢 任务 (通过 将 它们 的 域 访问 设置 成 “不 可 访问 ”)。 

145 域 访 问 位 取 值 











opino SiedoleAea WAS [Ау 


# m вз 说 明 
管理 者 11 访问 不 受 控制 ,不 产生 权限 中 止 
Ë H 10 不 可 预料 

* P 01 访问 受 页 事项 中 设置 的 权限 值 控 制 
不 可 访问 00 PERRE 
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基于 页 表 的 访问 权限 


页 表 项 中 的 AP 位 决定 该 页 的 访问 权限 ,AP 位 如 图 14. 6 和 图 14.8 BER. 家 14.6 说 
明了 MMU 如 何 解释 AP 位 域 的 2 rft. 


$3146 访问 权限 和 控制 位 


特权 模式 用 户 机 式 АР B 8 系统 性 ROM 性 
ж/н E5 11 su mox 
读 / 写 HR 10 mx g e 
Ж/Е 不 可 访问 01 Sox gw 
外 可 访问 不 可 访问 的 0 0 
R È яй 00 0 1 
Bod 不 可 访问 的 1 0 
不 可 预料 不 可 预料 00 1 1 
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除了 页 表 项 中 的 AP 位 外 ,在 CP15:cl 寄存 器 中 还 有 2 位 起 到 全 局 修改 存储 器 访问 权 
限 的 作用 ;系统 (S) 位 和 ROWMCR) 位 。 这 位 用 来 在 不 辐 模式 加 速 系统 中 访问 大 的 存 情 块 。 

设置 S 位 使 得 所 有 页 具有 “不可 访问 "权限 ,从 而 允许 特权 模式 任务 对 页 有 读 访 问 权 限 。 
因此 通过 改变 CP15;cl 中 的 一 个 位 ,所 有 标识 为 不 可 访问 的 空间 -下子 变 为 可 用 ,而 不 需 
要 改变 每 个 页 表 项 的 AP 位 域 ,节省 了 开销 ， 

改变 及 位 使 得 所 有 页 具有 "水 可 访问 ?权限 ,因而 特权 模式 任务 和 用 户 模式 任务 对 页 都 
有 读 访 问 权 限 。 同 样 ,这 一 位 可 以 加 速 对 大 块 存储 块 的 访问 ,而 不 需要 修改 许多 页 表 项 
的 值 。 








14.7 cache 和 号 缓冲 器 
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第 12 章 介 绍 了 cache 和 写 缓冲 器 的 基本 操作 ,这 里 可 以 通过 页 表 项 中 的 2 位 ( 见 
图 14. 6 和 图 14. 8) 来 配置 存储 器 中 每 一 页 的 cache 和 写 缓冲 器 。 当 配置 的 是 指令 页 时 , 写 
缓冲 器 位 被 忽略 ,cache 位 决定 cache 的 操作 。 设置 该 位 , 则 该 页 使 用 cache; 清 除 该 位 , 则 该 
ШЖ ШЇ cache, 

当 配 置 的 是 数据 页 时 , 写 缓冲 器 位 有 2 个 用 途 ,使 能 或 禁用 页 的 写 缓冲 器 ;设置 页 的 
cache HRR. HAY cache 位 控制 写 缓冲 器 位 的 意义 , 当 cache 位 为 6 时, 如果 写 缓冲 器 位 为 
1, 则 使 能 写 缓冲 器 ,如 果 写 缓冲 器 位 为 0, 则 禁用 写 缓冲 器 ; 当 cache 位 为 1 时 ,使 能 写 缓冲 
$$ cache 的 写 策略 由 写 缓冲 器 位 的 状态 决定 ,如 果 写 缓冲 器 位 为 0, 则 页 采用 坦 写 策略 ,如 
采写 缓冲 髓 位 为 1, 则 页 采用 右 写 策略 。 表 14.7 列 出 了 cache 位 和 写 缓 冲 器 位 的 各 种 状态 
及 对 应 的 意义 。 


#147 配置 页 的 cache RE Sl jb 


He cache Ж cache 
cache d£ ДАН cache S. БИРЕВ KAH 
0 ЯМЕ Rl cache 0 0 ЖЁН cache Rf RIS Е 
1 ЕШ cache 0 1 不 司 用 cache i E р 
l 0 使 用 cache, Ж УЖЕ 
1 1 fi FI] cache, [B] E E s 
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14.8 WHORE CPIS 和 MMU 配置 


第 12 章 介绍 过 changControl BERE, | 14. 3 至 次 用 到 这 个 例 程 ,用 于 使 能 MMU cache 
和 写 缓冲 器 。 

控制 MMU 操作 的 控制 寄存 器 值 见 表 14. 8 和 图 14.13, ARM720T, ARM920T 和 
ARMS26E] -S 在 控制 寄存 器 的 相同 位 置 分 别 有 MMU 使 能 位 f0] 和 cache 使 能 位 [2]; 
ARM720T 和 ARM1022E 有 写 缓冲 器 使 能 位 [3]j;ARM920T,ARM922T 和 ARM926EJ - S 
使 用 分 离 的 指令 cache 和 数据 cache, 因 此 需要 另外 一 个 位 (位 [12]) 来 使 能 指令 сасће(1- 
cache), BUE ММО 的 处 理 器 核 都 支持 将 向 量 天 改变 到 以 0xffHff0000 开始 的 高 地 址 存 情 
器 (位 [13j])。 
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#144 控制 MMU 操作 的 控制 寄存 器 CP15 :el 的 位 域 措 还 





位 Фант ERAR E t 
0 М MMU 0 AERE 1e fE 
à C Gt cache ”0= 禁 用 ,1i= 使 能 
3 wW SENE 0 一 禁用 ,1= 使 能 
8 $ Е # Vx 14.6 
494 9 R ROM WR 14.6 
12 1 指令 cache 0 一 禁用 ,1 使 能 
13 v г z 0= Ж Ж 000000000 


1= EH 0xFFFF0000 


上 述 3 类 内 核 使 能 一 个 已 配置 的 MMU 的 方法 十 分 相似 。 为 了 使 能 MMU cache 种 写 
缓冲 器 ,需要 改变 控制 审 存 器 的 位 [123] ,位 [3] ,位 [2] 和 位 [0]。 

例 程 changeControl 操作 CP15;ci;c0:0, 以 改变 控制 寄存 器 cl 的 值 ， 例 14.3 给 出 了 
一 个 设置 控制 寄存 器 位 的 简单 C 例 程 , 可 以 使 用 下 面 的 函数 原型 调用 它 ， 


void controlSet(unsigned int value, unsigned int mask) 
传递 给 例 程 的 第 1 个 参数 是 一 个 无 符号 的 整 型 (包含 要 改变 的 控制 值 ) .第 2 个 参数 


mask 选择 要 改变 的 位 ,mask 变量 中 为 1 的 位 将 把 CP15cl.co 寄存 器 的 相应 位 变 为 value 
输入 参数 的 相同 位 的 值 ;0 则 保持 控制 寄存 器 的 相应 位 不 变 , 而 不 管 value 参数 的 位 状态， 


С 14.3] 例 程 controlSet 设置 CP15;cl 的 控制 位 ， 
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图 14,13 MMU CE15:el rf Mie n 


例 程 首 先 读 取 CP15;cl 寄存 器 的 值 ,将 它 放 到 变量 clformat 中 ;然后 用 输入 的 mask 
值 清除 clformat 中 需要 更 新 的 位 ,通过 将 clformat SR ASM value 作 “ 或 ?操作 完成 更 
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新 ;最 后 将 更 新 后 的 clformat 写 同 到 CP15 :cl 寄存 器 ,以 使 能 ММО. cache MEAIM, 


void controlSet(unsigned int value, unsigned int mask) 
| | 


unsigned int clformat; 
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. asm(MRC p15, 0, clformat, cl, c0, 0 ) /* 读 取 控制 寄存 器 #* / 
clformat k- --mask; / * 清除 村 改变 的 位 xk / 
Clformat |= value; эз 设置 改变 的 位 * / 
— asm(MCR p15, 0, ciformat, cl, cO, 0) /4 ® ЖИ + / 

} 


下 面 是 调用 controlSet 4f (i f£ ARM920T 的 指令 cache, 数据 cache A MMU 的 代码 


序列 ， 
# define ENABLEMMU 0х00000001 
# define ENABLEDCACHE 0х00000004 
# define ENABLEICACHE 0х00001000 
` # define CHANGEMMI 0х00000001 


# def ine CHANCEDCACHE 0х00000004 
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H define CHANGEICACHE 0x00001000 





unsigned int enable, change; 
Hif defined( TARGET CPU ARM820T) 
enable = ENABLEMMU | ENABLEICACHE | ENABLEDCACHE ; 
change = CHANGEMMU | CHANGEICACHE | CHANGEDCACHE ; 
# endif 
controlS&et(enable, change); 


14.9 快速 上 下 文 切换 扩展 
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快速 上 下 文 切换 扩展 FCSECFast Context Switch Extension) Æ ММО 中 的 一 个 附加 
硬件 (可 以 看 作 是 一 种 增强 特征 ), 用 于 提高 ARM 嵌入 式 系统 的 系统 性 能 。FCSFE 使 得 多 
个 独立 的 任务 可 以 运行 在 一 个 固定 的 重 事 存储 空间 中 ,而 在 上 下 文 切换 时 又 不 需要 清理 或 
清除 cache ,或 清除 TLB。FCSE 的 主要 特征 是 不 需要 清除 cache M ТІВ, 

如 果 没 有 PCSE, 则 从 一 个 任务 切换 到 另 一 个 任务 需要 改变 虚拟 存储 映射 如 果 改 变 
涉及 2 个 有 重生 地 址 的 任务 , 则 保存 在 cache A ТІВ 中 的 信息 将 变 为 无 效 ,这 样 系统 就 必 
须 清除 cache 和 TLB。 清 除 这 些 模块 的 过 程 使 任务 切换 增加 了 很 多 时 间 , 因 为 内 核 不 仅 要 
清除 cache 和 TLB 中 的 无 效 数据 ,还 要 从 主 存 中 装载 新 的 数据 到 cache 和 TLB, 

使 用 FCSE, 虚 拟 存储 管理 增加 了 一 次 地 址 转换 。FCSE # Ж ИШ ЭЁ cache 和 TLB 
前 ,使 用 一 个 特殊 的 .包含 洽 套 ID 值 的 重 定位 寄存 胡来 收 改 点 地 址 。 把 第 一 次 转换 之 前 的 
E eg RE BR EAA VACVirtual Address) ,把 第 一 次 转换 之 后 的 地 址 称 为 整改 后 雇 胡 如 
MVA(Modified Virtual Address) ,如 图 14.4 所 示 。 当 使 用 FCSE 时 ,所 有 的 修改 后 虚 地 址 
都 是 活 晓 的 ,通过 使 用 域 访问 方式 阻止 访问 睡 眼 任务 ,以 保护 任务 。 这 个 问题 将 在 下 一 节 作 
详细 讨论 。 | 

这 样 ,任务 间 的 切换 就 不 用 涉及 到 改变 页 表 , 只 需 简 单 地 将 新 任务 的 进程 ID 号 到 位 于 
CP15 的 FCSE 进程 ID 寄存 器 。 正 是 因为 任务 切换 不 需要 改变 页 表 , 因 而 切换 后 cache 和 
TLB 中 的 值 依然 保持 有 效 , 不 再 需要 清除 ， . 

当 使 用 FCSE 时 ,每 个 任务 必须 在 0x00000000—0x1FFFFFFF 的 固定 虚 存 地 址 范围 内 
执行 , 旦 必须 位 于 修改 后 虚 存 的 不 同 的 32 MB 空间 中 。 系 统 共享 0x2000000 上 面 的 所 有 存 
а= ау ,使 用 域 来 实现 任务 间 保 护 。 正 在 运行 的 任务 通过 其 当前 进程 ID 进行 识别 。 

为 了 利用 FCSE ,编译 连 接 所 有 的 任务 ,使 它们 都 运行 在 点 存 的 第 一 个 32 MB 525 8], 
为 每 个 任务 分 配 一 个 进程 ID; 然 后 使 用 下 面 的 重 定位 公式 ,将 每 个 任务 放置 在 燃 收 后 虚 存 
的 不 同 32 MB ZP (partion) Ф; 
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MVA-—VA--(0x2000000 = 进程 10) (14.2) 
A SEES BIS dire NE ЕД COA 20m VA 和 任务 的 进程 ID Xx 0 Bf nf. 
保存 在 CP15:c13;e0 寄存 器 中 的 值 包含 当前 的 进程 ID, 寄存 项 中 进程 ID {у Ж 7 {у 

宽 虚 ,因此 可 以 有 128 个 进程 ID。 害 存 器 的 格式 如 图 14. 14 所 示 。 








31 2524 Ü 


8BZ= 须 为 0 的 位 (should be zero) 


spun jueuuoBDUuDIA AJON pL 


B 14.14 ЖЕКЕ СРІ5:с13 
例 14. 4 为 一 个 简单 的 例 程 processIDSet, 用 来 设置 FCSE 中 的 进程 ID。 使用 下 面 的 函 
数 原型 调用 它 : 
void processIDSet (unsigned value); 


[B| 14.4] 以 一 个 无 符号 整数 作为 输入 ,取出 低 7 位 {各 128) 388 0x2000000(32 МВ), 
然后 使 用 MCR 指令 将 结果 写 人 进程 ID 寄存 器 ， 
void processIDSet(unsigned int value) 
1 
unsigned int РІр; 497 
РІр = value << 25; 
— &smiMCR р15, D, PID, c13, с0,0) /« 写 进 程 ID ЕЕ z / 
j 


14.9.1 FCSE 1588698 


为 了 有 效 地 使 用 FCSE ,系统 使 用 页 表 来 控制 区 域 的 配置 和 操作 ,使 用 域 来 隔离 各 个 任 
务 。 请 参考 图 14. 15, 图 中 表示 了 从 任务 1 切换 到 任务 2 之 前 和 之 后 的 存 钳 颖 布局 ， 
Ж 14. 9 是 建立 图 14. 15 的 详细 数据 。 

图 14. 16 显示 了 СР15,с3,с0 的 域 访问 寄存 器 全 的 改变 情况 (用 于 实现 从 任务 1 到 任务 
2 的 切换 )。 任 务 间 的 切换 需要 更 改进 程 ID, 相 应 的 , 域 访 问 寄存 器 也 复 被 赋予 新 的 内 容 。 

表 14. 9 表示 域 1 分 配给 任务 1, 域 2 分 配给 任务 2。 当 从 任务 1 切换 到 任务 2 时 , 须 改 
变 域 访问 寄存 器 ,以 多 许 客户 (cienb) 访 问 场 2, 而 不 允许 访问 域 1 ,这 样 就 能 防止 任务 2 访 
问 性 务 1 的 存 铺 空间 。 
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访问 后 的 caches 物理 
Aa къ MBA ВН cie “us 
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is PCSB 权限 ШИН 。 ”和 TLB 存储 器 
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任务 1 正在 运行 





图 14.15 快速 上 下 文 切换 扩展 例子 :在 一 个 3 任务 的 多 任务 环境 中 ， 
切换 前 任务 1 运行 ,切换 后 任务 2 运行 


注意 : 对 于 内 核 ,客户 访问 是 保持 不 变 的 ( 域 0) 。 这 允许 页 表 控制 存储 器 的 系统 空间 访问 

在 任务 间 共享 存储 空间 可 以 通过 使 用 一 个 “共享 ”的 域 来 完成 , 见 图 14.16 和 表 14.9 中 
的 域 15。 共 享 的 域 在 图 14. 14 中 没有 表示 出 。 任 务 可 以 共享 一 个 域 ,这 个 域 允许 客户 访问 
修改 后 的 虚 存 中 的 一 个 分 区 。2 个 任务 都 可 以 看 到 这 个 共享 的 域 ,而 访问 它 要 通过 对 应 存 








14 存储 管理 单元 





储 空间 的 页 表 项 来 控制 ， 


D15 Di4 D13 D12 DIL DIO 09 D8 D? Dé 05 D4 D3 02 DI DO 


性 务 1 
йн ele ojoje] een nno 


D15 D14 D13 D12 D11 D10 D9 D8 рт 06 05 D4 D3 02 DI DO 


任务 2 
EE fofofo ofw [ofon olor onore [o 


H 14.16 3 性 务 的 多 任务 环境 中 ,从 任务 1 到 任务 2 改变 前 后 CP15 寄存 器 3 的 什 
$149. 在 一 个 简单 的 3 任务 的 多 任务 环境 中 使 用 FSCE 的 域 分 配 
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修改 后 咸丰 中 


к A Ж ЖААР ЯР АР ананы 进程 ID 

内 Ж 0 读 / 写 不 可 访问 0хЕЕ000000 I 不 分 配 

ЕЗ 3 Н 读 / 写 0х06000000 0x03 

任务 2 2 85 Ж/Е 0х04000000 0x02 

任务 1 1 读 / 写 读 / 写 0х02000000 0x01 499 
x ox l5 — &g/5 读 / 写 QxF&000000 不 分 配 


使 用 FCSE 时 执行 一 次 上 下 文 切换 需要 以 下 步 又 ， 


(D 保存 活跃 任务 的 上 下 文 , 并 将 活 蚂 任务 置 为 睡眠 态 ， 

(QD 将 唤醒 任务 的 进程 ID 写 到 CP15,el3:c0 中 ; 

@ 通过 写 CF15:c3:c0, 将 当前 任务 的 域 设 置 为 不 可 访问 ,而 唤醒 任务 的 域 设置 为 客户 
可 访问 ; 

Ф 恢复 晚 醒 任 务 的 上 下 文 ; 

© 继续 执行 被 恢复 的 任务 。 


14.9.2 使 用 FCSE 的 提示 


e 任务 在 大 小 上 有 固定 的 最 大 32 MB HRH, 
e 存储 器 管 理 者 必须 使 用 有 固定 起 始 地 址 (32 МВ 的 倍数 ?的 固定 32 MB 分 区 。 
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e 除非 想 为 每 个 任务 管理 一 个 异常 向 量 表 ,否则 使 用 CP15 寄存 器 1 的 V 位 将 异常 向 
F EW BE fE Е OxffTO000 , 

e 必须 定义 和 使 用 一 个 活跃 的 域 控制 系统 ， 

e 如 果 执行 发 生 在 第 一 个 32 MB 块 中 , 则 紧 随 着 进程 ID 的 改变 ,内 核 会 从 先前 的 进 
程 空间 中 取 2 条 指令 。 因 此 ,从 存储 器 中 一 个 “固定” 区域 切 换 任 务 基 明智 的 。 

e 如 果 使 用 域 来 控制 任务 的 访问 , 则 正在 运行 的 任务 也 作为 一 个 别名 出 现在 虚 存 的 
VA--(0x2000000 * 进程 ID) ЖЕ, 

e 如 果 使 用 域 来 保护 各 个 任务 , 则 除非 修改 一 级 页 表 中 域 的 相应 位 ,并 在 上 下 文 切 换 
时 清除 TLB, 寿 则 最 多 只 能 有 16 个 并 发 任务 。 


14.10 示例 :一 个 简单 的 虚拟 存储 系统 





下 面 是 一 个 简单 的 示例 ,用 于 说 明 使 用 虚 存 的 小 型 谋 人 式 系统 的 基本 原理 (fundamen- 
tals) 。 它 设计 成 运行 在 ARM720T 或 ARM920T 核 上 ， 该 示例 提供 一 个 静态 的 多 任务 系 
统 , 说 明了 运行 3 个 并 发 任务 所 需 的 基础 部 分 Cinfrastructure}。 它 选用 的 开发 工具 蚌 ARM 
ADS1.2。 该 未 例 的 主要 目的 是 ,理解 ARM ММО 的 廉 层 (underlying) 硬 忻 原 理 ( 尽 管 还 有 
许多 方法 可 以 用 来 改进 该 示例 )。 该 示例 没有 涉及 分 页 和 二 级 存 情 器 交换 ， 

该 示例 中 所 有 的 用 户 任务 使 用 相同 的 执行 区 域 ,从 而 简化 了 这 些 任务 的 编译 和 连接 工 
作 。 每 个 任务 被 编译 成 一 个 独立 的 程序 ,包含 单个 区 域 中 的 代码 ,数据 和 堆栈 信息 ， 

WERTE EET. ARM 的 评 佰 板 , 包 含 一 个 ARM720T 或 ARM920T 的 处 理 器 核 ， 
例子 需要 256 KB 的 RAM, 起 始 地 址 为 0x00000000; 还 需要 一 种 将 代码 和 数据 装载 到 存 情 
器 的 方法 ;其 外 还 要 有 若干 存 情 器 贞 射 的 外 设 ,分 布 在 0x10000000—0x20000000 的 256 MB 
地 址 范围 。 

软件 需求 是 一 个 操作 系统 的 基础 部 分 ,比如 在 前 面 章 节 中 介绍 的 SLOS, 系统 必须 支持 
固定 分 区 的 多 任务 ， 

本 例 使 用 了 1 MB 和 4 KB 的 页 (实际 上 它 支 持 所 有 的 页 大 小 ) ,因为 任务 的 大 小 限制 在 
小 于 1 MB, 可 放 在 Ufit) 单 个 L2 页 表 中 ,因此 只 须 通过 改变 主 L 党 表 的 单个 L2 页 表 项 
《PITE) 就 能 执行 任务 切换 。 

与 另 一 种 方法 一 一 为 每 个 任务 创建 和 维护 -一 个 完整 的 页 表 集 合 , 在 切换 时 改变 TTB 
地 址 相 比 ,这 种 方法 要 简单 得 多 。 通 过 改变 TTB 来 实现 任务 存储 器 映射 的 改变 ,需要 在 3 
个 不 同 的 页 表 集 合 中 创建 一 个 主 表 和 所 有 的 1.2 系统 表 , 这 样 就 需要 额外 的 存 情 器 来 保存 
这 些 增 加 的 页 表 。 在 单个 工 ? 表 交 换 的 目的 是 ,避免 在 多 个 页 表 组 中 复制 系统 信息 ,减少 复 
制 的 页 表 数 目 , 也 就 减少 了 运行 系统 所 需 的 存储 器 。 
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该 示例 使 用 下 列 7 个 步骤 来 设置 MMU: 


(D 定义 固定 的 系统 软件 区 域 ,这 个 固定 的 空间 如 图 14. 5 Bro. 

D 为 3 个 任务 定义 3 个 虚 存 映射 ,这 些 映射 的 总 体 布局 如 图 14.4 所 示 。 

O 将 步骤 @ 和 步骤 @ 列 出 的 区 域 定 位 到 物理 存储 器 映射 ,相应 结果 如 图 14. 5 的 右边 
部 分 所 示 。 

@ 定义 并 在 页 表 区 域 中 定位 页 表 。 

© 定义 创建 和 管理 区 域 与 页 表 的 数据 结构 ,这 些 结构 与 实现 有 关 , 这 里 是 特别 为 这 个 例 
子 定义 的 。 然 而 这 些 结构 的 一 般 形式 对 大 多 数 简单 系统 而 言 ,也 是 很 好 的 起 始 参考 ，。 

© 初始 化 MMU cache 和 写 缓冲 器 。 

(D 建立 上 下 文 切换 例 程 ,以 顺利 地 从 一 个 任务 转换 到 下 一 个 任务 。 


下 面 各 节 将 详细 介绍 这 些 步骤 。 


14.10.1 第 1 步 :定义 固定 的 系统 软件 区 域 


这 个 操作 系统 使 用 4 个 固定 的 系统 软件 区 域 :位 于 0x00000 的 专用 32 KB AH ECC, 
位 于 0x80000 的 32 KB 浇 享 六 和 今 区 域 ;位 一 一 一 一 一 一 一 一 一 一 
于 0x10000 的 专用 32 КВДК; Ма 
0x10000000 的 256 MB fi X Si ( # n A DM 
14.17)。 在 初始 化 过 程 中 定义 这 些 区 域 ， 
以 后 不 再 改变 其 页 表 。 

特权 内 核 区 域 保 存 系 统 软件 ,包含 操 
作 系 统 内 核 代 码 和 数据 。 通 过 在 这 个 区 域 
使 用 固定 的 地 址 ,可 以 避免 改变 系统 模式 
时 重 映射 的 复杂 性 。 该 区 域 还 包含 向 量 表 
和 处 理 FIQ, IRQ, SWI, UND 和 ABT 异 
常 的 堆栈 。 

共享 存储 区 域 在 虚 存 的 一 个 固定 地 址 
上 ,所 有 的 任务 使 用 这 个 区 域 来 访问 共享 
的 系统 资源 。 共 享 存储 区 域 包 含 共享 库 ， 
以 及 在 上 下 文 切换 时 从 特权 模式 切换 到 用 
户 模 式 所 使 用 的 转换 例 程 。 

页 表 区 域 包含 5 个 页 表 , 虽 然 页 表 区 
域 大 小 为 32 KB, 但 是 系统 只 使 用 其 中 的 В 14.17 虚 存 中 的 固定 区 域 


sun {оәиәбоиои AIOUeIAN tl 
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20 KB; 16 KB 用 于 主 表 (master table) ,4 KB 用 于 1L2 表 (4 个 L2 表 每 个 使 用 1 КВ), 

外 设 区 域 控制 系统 设备 I/O 空间 ,这 个 区 域 的 主要 目的 是 ,将 该 区 域 配置 成 无 cache B. 
无 写 缓冲 的 区 域 。 这样, 对 输入 、 输 出 和 控制 寄存 器 来 说 ,就 可 以 避免 因为 缓存 操作 而 可 能 
包含 的 陈旧 数据 ;同时 ,也 可 以 避免 使 用 写 缓冲 器 所 引起 的 延 时 。 

这 个 区 域 也 防止 用 户 模 式 下 访问 外 围 设备 ,因此 访问 外 设 必须 通过 设备 驱动 程序 完成 。 
这 个 区 域 只 允许 特权 访问 ,不 允许 用 户 访问 。 示 例 中 只 有 单个 外 设 区 域 , 但 是 在 一 个 较 完整 
的 系统 中 ,可 能 需要 定义 更 多 的 这 种 区 域 ,以 对 各 个 设备 提供 更 好 的 控制 。 


14.10.2 第 2 步 :为 每 个 任务 定义 虚 存 映射 


3 个 用 户 任务 分 别 在 3 个 时 间 片 内 运行 ,每 个 任务 的 虚 存 映射 都 是 一 样 的 。 
每 个 任务 在 其 存储 器 映射 中 可 以 看 到 2 个 区 域 :一 个 是 位 于 0x400000 的 专用 32 KB 
任务 区 域 ; 另 一 个 是 位 于 0x8000 的 32 KB 共享 存储 区 域 ( 见 图 14. 18). 
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虚拟 
存储 器 
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图 14.18 运行 的 任务 所 看 到 的 虚拟 存储 器 
任务 区 域 包含 运行 的 用 户 任务 的 代码 .数据 和 堆栈 。 当 调度 器 使 控制 权 从 一 个 任务 切 
换 到 另 一 个 任务 时 , 它 必 须 重新 映射 任务 区 域 ,这 是 通过 改变 L1 页 表 项 ,使 它 指向 即将 运 
行 任务 的 L2 页 表 来 完成 的 。 改 变 页 表 项 后 ,任务 区 域 就 指向 下 一 个 要 运行 的 任务 的 物理 
地 址 。 
共享 区 域 是 一 个 固定 的 系统 软件 区 域 , 其 功能 在 14. 10. 1 小 节 中 已 经 描述 过 了 
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14.10.3 第 3 步 :在 物理 存储 器 中 定位 区 域 


示例 中 定义 的 区 域 必须 定位 在 物理 存储 器 的 互 不 重 秋 或 冲突 的 地 址 上 。 所 有 区 焉 在 物 
理 存 情 器 上 的 定位 及 其 虚 地 址 和 大 小 如 表 14.10 所 列 。 表 中 也 列 出 了 为 每 个 区 域 所 选择 的 
页 大 小 和 每 个 区 域 所 需要 的 页 的 数目 。 
*X 14.10 MMU 例子 中 区 域 的 放置 


Eki Asek 页 前 大 小 АНКЕ 物理 基地 址 


& 


64 КВ 0х00000000 4 КВ 16 0х00000000 


= 
Ж |Ж 
EH 


32 KB 0х00010000 4 КВ 8 0x00010000 


ңип мәшәбюцору AOAN tri 


32 KB 0х00018000 4 КВ 8 0х00018000 


32 КВ 0х00400000 4 КВ 8 0x00020000 


ik 
E 
= 
定 
定 256 МВ 0х10000000 1 MB 230 0х10000000 
& 
= 32 KB 0x00400000 1 KB 8 0х00028000 
& 


市 
№ 
A дажа FH ы ЕН E 


32 КВ 000400000 4 КВ 8 0х00030000 


表 14.10 列 出 了 4 个 在 系统 操作 过 程 中 使 用 固定 页 表 的 区 域 : 内 核 .共享 存储 器 ,页 表 
和 外 设 区 域 。 | 

任务 区 域 在 系统 操作 过 程 中 动态 改变 其 责 表 , 针 对 正在 运行 的 不 同 任务 , 它 将 同一 个 虚 
地 址 转换 成 不 同 的 物理 地 钼 。 

图 14. 19 显示 了 各 个 区 域 在 虚 存 和 物理 存储 器 中 的 放置 情况 。 内 核 ,共享 和 页 表 区 域 
直接 映射 到 物理 存 鱼 器 的 连续 页 帧 块 ,在 这 个 空间 的 上 面 ,是 分 配给 3 个 用 户 任务 的 页 帧 ， 
物理 存储 器 中 的 任务 是 32 KB 的 图 定 分 区 ,也 是 连续 的 页 惰 。 存 储 器 映射 的 外 围 LO 设备 
Wi Bir ТЕЗ fra ЖЕЙ) 256 MB 空间 内 。 


14.10.4 第 4 步 : 定 义 和 定 位 页 表 


系统 中 专门 用 一 个 区 域 来 预先 保存 页 表 , 下 一 步 就 是 将 区 域内 的 实际 页 表 定 位 到 物理 
”存储 器 中 。 潮 14. 20 详细 表示 了 页 家 区 域 映 射 到 物理 存储 器 的 哪个 位 置 。 它 是 图 14, 19 中 
页 表 的 放大 ,将 存储 器 展开 来 描述 L1 主页 表 和 4 个 L2 页 表 之 间 的 关系 。 图 中 还 描述 了 转 
换 数据 如 何 保存 在 页 表 中 ，。 

一 个 Li 主页 表 定 位 12 页 家, 并 转换 外 设 区 域 的 1 MB 段 。 系 统 L2 页 表 包 含 3 个 系统 
区 域 (内 核 区 域 ,共享 存储 区 域 和 页 表 区 域 ) 的 转换 地 址 数据 。 有 3 个 任务 1.2 FOR DER 
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存储 器 物理 存储 器 
тт 0XFFFFFFFF 









0x20000000 
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固定 地 址 外 设 区 域 外 围 设备 输入 /输出 设备 


0x10000000 


动态 地 址 | 任务 区 域 和 | | ooo4oooo 


0x00400000 
1 未 使 用 
504 0x00038000 
任务 3 
0x00030000 
任务 2 
0x00028000 物理 位 置 
0х0001с000 лж | 页 表 
ИЕН ру ES | фэ) | | 共享 的 代码 和 数 所 
0x00010000 
内 核 区 域 NN 系统 代码 和 数据 
0x00000000 





图 14.19 简单 虚 存 例子 的 存储 器 映射 








14 存储 管理 单元 






L1 主 页 表 DE 
Ox bffc 错误 项 


任务 3 页 表 


Ox181fc | 


ШЕ Ox01cc00 


ип {оәишәбоиру Аошәүү ф | 


0x18100 [C 





L2 页 表 
0х18010 
0х01с800 
0х18000 
任务 1 页 表 PIS 


1 0x01c400 


| _ ] uses — 
[EE] sueco 1 
EA) 错误 项 产生 中 止 异常 E nom 





图 14.20 简单 虚拟 存储 器 示例 中 的 页 表 结构 
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射 到 3 个 并 发 任务 的 物理 地 址 。 
5 个 页 表 中 只 有 3 个 在 运行 时 是 同时 有 效 的 :L1 主页 表 、L2 系统 真 表 和 3 + L2 任务 
页 表 中 的 一 个 。 


凋 度 器 通过 上 下 文 切换 重新 映射 任务 区 域 ,控制 哪个 任务 是 活 吐 的 ,哪些 任务 是 睡眠 
的 。 特 别 要 指出 的 是 ,位 于 0x18010 的 L1 主页 表 项 在 上 下 文 切换 时 是 要 改变 的 ,使 它 指向 
下 一 个 活 牙 任务 的 LZ 页 表 的 基地 址 。 


14.10.5 第 5 步 :定义 页 表 和 区 域 数 据 结构 


例子 中 定义 了 2 个 数据 结构 ,用 来 配置 和 控制 系统 。 这 2 个 数据 结构 描绘 了 用 来 定义 
和 初始 化 页 表 及 区 域 的 实际 代码 。 这 里 定义 2 个 数据 类 型 ;Pagetable 类 型 包 售 页 表 数 据 ; 
Region 类 型 定义 和 控制 系统 的 每 个 区 域 。 | 

Pagetable 结构 的 类 型 定义 以 及 结构 成 员 的 描述 如 下 : 


typedef struct í 
unsigned int vÀddress; 
unsigned int ptAddress; 
unsigned int masterPthddress; 
unsigned int type; 
unsigned int dom; 
| Pagetabie, 


© vAddress $R H BER SX L2 页 表 控 制 的 虚 存 1 MB 段 的 起 始 地 址 。 

€ ptAddress EARE RFT A Hh. 

Ф masterPtAddress 是 父亲 L1 主页 表 的 地 址 ,如 果 页 表 为 L1 页 表 , 则 该 什 与 ptAd- 
dress 的 值 相 局 。 

€ type 表示 页 表 的 类 型 ,可 以 是 COARSE( 粗 ) .FINE( 细 ?或 MASTER( Ж). 

€ dom 用 来 设置 分 配给 L1 页 表 项 的 1 MB 存储 块 的 域 ， 


这 里 使 用 Pagetable 类 型 来 定义 系统 中 使 用 的 5 NER, E Pagetable 结构 一 起 组 
成 一 块 页 表 数 据 ,用 来 管理 填充、 定位、 识别 所 有 活跃 和 非 活路 页 表 并 为 其 设置 域 。 在 示例 
的 其 它 部 分 , 称 这 个 Pagetable Dg ЕЕ ДЕ PTCB(Page Table Control Block) , 

表面 章节 中 描述 (如 图 14. 20 所 示 ) 的 5 个 Pagetable 及 其 初始 值 如 下 ， 

# define FAULT 0 

# define COARSE — 1 

# define MASTER 2 











# define FINE 3 м 
жт» (p 
£ ж VADDRESS, PTADDRESS. MasterPTADDRESS, PTTYPE, DOM x / 3 
Pagetable masterET = {0х00000000, Ox18000, 0x18000, MASTER, 3); «c 
Pagetable systemPT = (0x00000000, 0х1с000, 0х18000, COARSE, 3); < 
Pagetable tasklPT = {0х00400000, 0х1с400, Ox18000, COARSE, 3); Q 
Pagetable task2PT = (0x00400000, Ox1c800, 0х18000, COARSE, 3); a 
Pagetable task3PT = [0x00400000, 0х1сс00, 0х18000, COARSE, 3); 3 
Region 铺 构 的 类 型 定义 , 议 及 结构 成 员 的 描述 如 下 : 9 
— 

typedef struct { = 
unsigned int vAddress; Ut 


unsigned int pageSize; 
unsigned int numPages; 
unsigned int AP; 
unsigned int CB; 
unsigned int pAddress; 
Pagetable «PT; 

| Region; 


€ ¿Address 是 区 域 在 虚 存 中 的 起 始 地 址 。 

€ pageSize 是 虚 存 页 的 大 小 。 

@ numPages 是 区 域 中 页 的 数目 。 

e AP 是 区 域 的 访问 权限 。 

€ CB 是 区 域 的 cache 和 号 缓冲 器 属性 。 

€ pAddress 是 区 域 在 物理 存储 器 中 的 起 始 地 址 。 

e = PT 是 指向 区 域 所 对 应 (reside) 的 Pagetable 的 指针 。 


所 有 的 Region 数据 结构 一 起 组 成 第 二 个 数据 块 ,用 来 定义 系统 中 使 用 的 区 域 的 大 小 、 
位 置 , 访 问 权 有限.cache 和 写 缓 冲 器 操作 以 及 页 表 位 置 ， 在 示例 的 其 它 部 分 , 称 这 个 Region 
块 为 区 域 控制 块 RCE‘ Region Control Block) , 

共有 ?个 Region 结构 ,用 来 定义 在 前 面 章 节 中 描述 (如 图 14.19 所 示 ) 的 区 域 。 下 面 是 
RCB 的 4 个 系统 软件 和 3 个 任务 Region 的 初始 值 ， 


# define НАНА Ox0D 
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i define РМА 0x01 
# define RWRO 0х02 
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# define RWEW 0х03 
/*Sh- ap yim, RO= Di, RW = S/E + / 





Hif defined( TARGET CPU, ARM9207) 
1i define cb 0х0 
i define cB 0х1 
H define WT 0x2 
it define WB 0x3 
Ё endif 
£ w 20 / 
# if defined(, TARGET CPU ARMT20T) 
# define cb 0x0 
# define cB Dxl 
# define Cb 0х2 
# define WT 0x3 
# endif 
/ * cbz 不 使 用 cache/ t TS E yh * / 
/ * cB = AME RI cache/ FEES 2E nh 38 + / 
/ * Cb = 司 用 cache/ {ЖН + / 
Гат КЫ Щ caches / 
/ * WB = [B] E IE cache x / 


opino sjodojeA^eg WOAS WAY 
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/ + КЖ + / 
/* VADDRESS, PAGESIZE, NUMPAGES, АР, CB, PADDRESS, KPT * / 
Region kernelRegion | 

= {0х00000000, 4, 16, RWNA, WT, 0х00000000, &systemPT]; 
Region sharedhegior 

= {0х00010000, 4, 8, RWRH, WT, 0х00010000, &systemPT); 
Region pageTableRegion 

= {0х00018000, 4, B, ВИНА, WT, 0x00018000, &systemPT); 
Region peripheralBegion 

= (Ox10000000, 1024, 256, НИНА, cb, Ox10000000, &masterPT), 
[ER / 


Region tiBegion 

= (0x00400000, 4, 8, RWRW, WT, 0х00020000, &tasklPT!; 
Region t2Region 

= {0х00400000, 4, B, RWRW, WT, Ox00028000, &task2PT); 
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Region t3Region 
= (0x00400000, 4, 8, ВИКИ, WT, 0x00030000, &task3PT); 


14.10.6586 2p :4 1845, MMU, Cache 和 写 缓冲 器 


在 激活 ММО cache 和 写 缓冲 器 之 前 ,必须 对 它们 进行 初始 化 。PTCB 和 КСВ 保存 有 
这 3 个 部 件 的 配置 信息 。 初 始 化 MMU 需要 以 下 5 个 步骤 ， 


中 初始 化 主 存 中 的 页 表 , 将 它们 都 填充 成 FAULT 项， 
@ 使 用 将 区 域 映射 到 物理 存储 器 的 转换 数据 填充 页 表 ; 
Э 激活 页 表 ; 

由 分 配 域 的 访问 权限 ; 

© 使 能 存储 管理 单元 和 cache 硬件 ， 


前 4 个 步骤 配置 系统 ,最 后 一 个 步骤 使 能 系统 。 下 面 的 章节 将 提供 在 初始 化 过 程 中 完 
成 这 5 个 步骤 的 例 程 , 例 程 的 函数 和 例子 号 在 图 14. 21 中 列 出 ， 


Q 初始 化 主 存 中 的 页 表 ， 将 它们 都 填充 成 FAULT 项 


@ 使 用 将 区 域 映射 到 物理 存储 器 的 转换 数据 填充 页 表 


@ 分 配 域 访问 权限 


© 使 能 存储 管理 单元 和 cache 硬件 。 





14.21 MMU 初始 化 例 程 列 表 





A 
< 
Ф 
j 
О 
s< 
< 
О 
- 
Q 
Q 
Q 
j 
Ф 
刁 
= 
C 
Э. 
Z 
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初始 化 MMU 的 第 1 步 是 ,将 页 表 设 置 到 一 个 已 知 的 状态 。 最 简单 的 方法 是 使 用 
$ | FAULT 页 表 项 填充 这 些 页 表 , 这 样 就 确保 除了 PTCB 中 定义 的 那些 转换 数据 外 ,没有 其 它 
D | 。 有 效 的 转换 数据 存在 。 将 所 有 活跃 页 表 的 所 有 页 表 项 设置 成 FAULT, 这 样 , 如 果 某 个 页 表 
F| 。 机 没有 使 用 PTCB 中 的 数据 填充 ,那么 对 它 访问 将 产生 一 个 中 止 异常 。 
ó [5| 14.5] 例 程 mmuInitPT 初始 化 页 表 , 通 过 接受 分 配给 页 表 的 存储 空间 ,将 它 设置 
9 成 FAULT 值 。 它 的 函数 原型 如 下 : 
o void mmuInitPT(Pagetable * pt); 
2 例 程 接受 一 个 指向 PTCB 中 Pagetable 的 指针 作为 参数 。 
Q int mmuInitPT(Pagetable * pt) 
{ 

int index; /* 每 次 循环 写 PT/entries 中 行 的 数目 * / 

unsigned int PTE, * PTEptr; / * dí [8] URP ДЕЛ < / 

PTEptr- (unsigned int * ) pt- —ptAddress;  / * 指向 页 表 基 地 址 */ 

PTE = FAULT; 


sito (pt - type) 
{ 
case COARSE; { index= 256/32;break;) 
case MASTER, (index = 4096/32;break;) 
# if defined( TARGET CPU ARM920T) 
case FINE, (index = 1024/32;break;) / ж ARM 7207 中 没有 细 (FINE) 页 表 * / 
# endif 
default, 
( 
printf("mmuInitPT; UNKNOWN pagetable +уре\л") ; 
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return -1; 


mov r0, PTE 
mov rl, PTE 
mov r2, PTE 
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mov r3, PTE 
) 


for (;index != 0;index-- ) 
. asm 


STMIA PTEptr!, { ) /*W 32 NIS A 3 th / 
STMIA PTEptr!, { ) 
STMIA PTEptr!, { ) 
STMIA PTEptr!, { } 
STMIA PTEptr!, (r0- r3) 
STMIA PTEptr!, { ) 
STMIA PTEptr!, | ) 
STMIA PTEptr!, í ) 
) 
} 


return 0; 


) 


mmulnitPT 从 页 表 基 地 址 PTEptr 开始 ,使 用 FAULT 项 填充 页 表 。 页 表 大 小 通过 读 
Ж pt 一 >type 中 定义 的 Pagetable 的 类 型 确定 。 页 表 类 型 可 以 是 有 4 096 个 项 的 L1 主页 
表 , 有 256 个 项 的 L2 粗 页 表 , 或 是 有 1 024 个 项 的 L2 细 页 表 。 

例 程 通过 使 用 循环 ,每 次 写 一 小 块 存储 器 来 填充 页 表 。 页 表 的 项 数 除 以 每 次 循环 写 的 
项 数 就 是 块 的 数目 ,保存 到 index 变量 中 。switch 语句 判断 Pagetable 类 型 ,然后 跳 转 到 一 
个 设置 页 表 的 index 变量 值 的 case。 执 行 填充 页 表 的 循环 以 后 ,程序 就 结束 了 。_asm Xt 
字 用 于 调用 内 炭 的 (inline) 汇 编 语句 ,这 样 可 以 通过 使 用 stmia 多 寄存 器 装载 指令 缩短 循环 
的 执行 时 间 


初始 化 MMU 的 第 2 步 是 将 保存 在 RCB 中 的 数据 转化 成 页 表 项 ,然后 将 其 复制 到 页 表 
中 。 这 里 提供 多 个 例 程 来 将 RCB 中 的 数据 转化 成 页 表 中 的 项 。 最 上 层 的 例 程 mmuMa- 
pRegion 判断 页 表 的 类 型 ,然后 调用 3 个 例 程 中 的 一 个 来 构造 页 表 项 ,mmuMapSectionT- 
ableRegion, mmuMapCoarseTableRegion 或 mmuMapFineTableRegion, 

为 使 以 后 代码 的 移植 更 容易 ,建议 不 要 使 用 微 (tiny) 页 和 mmuMapFineTableRegion 例 
程 ,因为 ARMv6 体系 结构 不 再 使 用 微 (tiny) 页 。 细 (fine) 页 表 类 型 也 已 从 ARMv6 体系 结 
构 中 删除 了 ,因为 如 果 没 有 微 页 ,也 就 不 需要 细 (fine) 页 表 了 ， 

下 面 是 4 个 例 程 的 描述 ， 


SHUN {чәцәбоиои AIOuUuaeilN t! 
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€ mmuMapRegion 例 程 判断 页 表 的 类 型 ,然后 分 支 到 下 面 列 出 的 3 个 便 程 之 一 :在 例 
14.6 介绍 。 

@ mmuMapSectionTableRegion 使 用 段 项 填充 Ll OR S Ef] 14.7 介绍 。 

Ф mmuMapCoarseTableRegion 使 用 区 域 项 填充 L2 粗 页 表 : 在 例 14.8 介绍 ， 

€ mmuMapFineTableRegion 使 用 区 域 项 填充 LALR EH 14. 9 介绍。 


下 面 是 4 个 例 程 的 CC 函数 原型 列表 ， 

int mmuMapRegion(Region sx); 

void mmuMapSectionTableRegion(Region * region); 
int mmuMapCoarseTableRegion(Region x region); 
int mmuMapFineTableRegion(Region * region); 


4 个 例 程 都 有 一 个 参数 ,指向 包含 生成 页 表 项 所 需 的 配置 数据 的 Region 结构 指针 。 
[514.6] 是 最 上 屋 的 例 程 , 判 断 页 表 类 型 。 | 


int mmuMapRegion(Region * region) 
{ 
switch (region- 2>РТ- >type) 
{ 
case SECTION; ы SURE x / 
{ 
nnuMapSectionTableRegion( region); 
break, 
j 
case COARSE; /*I220 E = / 
i 
mnuMapCoarseTableRegion(region), 
break; 
) 
# if defined( | TARGET CEU ARM920T) 
case FINE, /*I28m dex / 
I 
mmuMapFineTableRegqion(region); 
break; 
) 
Jt endit 
default, 
{ 
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printf("mmuMapRegion, UNKNOWN pagetable typein"); 
return - 1; 
} 
} 


return 0; 


) 

Region 中 有 一 个 指向 Pagetable 的 指针 ,区 域 的 转换 数据 就 保存 在 这 里 。 例 程 判断 页 
表 类 型 region 一 渤 PT 一 污 type, 然 后 调用 一 个 例 程 ,以 给 定 页 表 类 型 的 格式 将 Region БОЙ 
Ыр ДН 

对 于 段 (L1 +), ИШ 3 种 页 表 分 别 有 单 独 钓 例 程 (参见 14. 4 节 )。 

[514.7] 是 第 1 个 例 程 , 把 区 域 数据 转化 成 页 表 项 。 


void mmuMapSectionTableRegion(Region w region) 
{ 

int і; 

unsigned int * PTEptr, PTE; 


PTEptr = (unsigned int * )region- >PT- 7»ptAddreas; ГАНЕ к / 


PTRptr += region- —»vAddress >> 20; /* 区 域 的 第 一 个 页 表 项 = / 
РТЕріг += region- 7>numPages ~ 1; / * АК 85 A ДД x< / 
PTE = region ~ > phddress & 0хҒЕЃ00000; /* 设置 起 始 物 理 地 址 * / 
PTE |= (reqion- AP & 0x3) << 10; /* 设置 访问 权限 * / 
PTE |= region- —PT- —-don << 5; /* EBEN x / 
PTE |= (гедіоп - >>СВ 5 Dx3) << 2, | / * 设置 cache 505 RE RARI + / 
PTE |= 0x12; ж ВД жу 
for (1 = region- —numPages — 1;і >= 0;і- -) / * ДУКАТА + / 
{ 
*PIEptr-- =РТЕ + (i << 20); f w i= | MB E; x / 


) 
! 


在 mmuMapSectionTableRegion 例 程 的 开始 , 先 设置 局 部 指针 变量 PTEptr, 使 它 指向 
LI 主 贡 表 的 基地 址 。 然 后 例 程 使 用 区 域 的 虚拟 起 始 地 址 来 创建 一 个 页 家 的 索引 ,区 域 的 页 
表 项 从 案 引 处 开始 。 这 个 索引 值 加 到 PTEptr 变量 中 ,这 时 变量 PTEptr 就 指向 页 表 中 区 域 
项 的 起 始 位 置 。 下 一 个 程序 行 计算 区 域 的 大 小 ,然后 将 这 个 值 加 到 PTEptr h. É H 
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PTEptr 指向 区 域 的 最 后 一 个 页 责 硕 (PTE) PTEptr 变量 被 设置 为 区 域 的 结束 位 置 , 因 此 
在 填充 页 表 的 循环 中 可 以 使 用 向 下 递减 (count - dowr HER. 

接 下 来 , 例 程 使 用 Region 结构 中 的 值 构造 -个 段 页 表 项 ,这 个 项 保存 在 局 部 变量 PTE 
中 。 一 系列 OR 诸 句 设置 这 个 PTE, 包 括 起 始 物理 地 址 .访问 权限 , 域 以 及 cache 和 写 缓冲 
WEE. PTE 的 格式 如 图 14.6 BOR. 

这 时 PIE 包含 指向 区 域 的 起 始 物 理 地 址 和 属性 的 指针 。 计 数 器 变量 ;有 2 个 作用 ; 首 
先 它 是 页 表 仿 移 量 Coffset) ;其 次 它 加 到 PTE 变量 中 ,以 递增 页 帧 的 物理 地 址 转换 数据 。 这 
里 须 指出 的 是 ,示例 中 所 有 的 区 域 都 映射 到 物理 存储 器 连续 的 页 帧 。 从 最 后 一 个 转换 项 开 
始 , 然 后 向 下 计数 到 第 一 个 转换 项 ,程序 将 区 域 的 所 有 PTE GARA ЕШ. 

[5|14.8] 2 个 例 程 :mmuMapCoarseTableRegion 利 mmuMapFineTableRegion , dE 
Ж ЖИЙ. CRURA X SE HE ЖШ ДОК ШШ, Ж ТИШ ЖИ Т s WE аии: 
过 细 页 表 的 例子 。 

int mxuMapCoarseTableRegion(Region * region) 


f 


int i.i 
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unsigned int x PTEptr, PTE; 
unsigned int tempAP = region ~ >>АР & 0x3; 


PTEptr = (unsigned int + )region- >>РТ - 7 ptAddress; / * PTEptr = 页 表 起 始 地 址 x 7 


switch (region- —pageSize) 
( А 
сазе LARGEPAGE, 
{ 


PIEptr += {гедіоп – >>vhddress & 0х000#000) >> 12; /x Е tR, 


РТЕріг += (region- —numPages ж 16) - 1; /* REIR T IER = / 
PTE = region ~ 2>рАсбагезв £ Oxffff0000; 7A 设置 物理 地 址 x / 
PTE |= tempAp << 10; /# 设 置 访问 权 眼 subpage 3 / 


ETE |= tempAP << B; / + subpage 2 = / 


PTE |= tempAP << 6; /* subpage 1 x / 


PTE |= tempAP << 4; / * subpage 0 x / 


PTE |= (region- —CB & 0x3) << 2; /* 设置 cache ЖИЕ ЖЕНИ ЩИ < / 


PTE |= 0х1; / * set as LARGE PAGE x ./ 





14 ”存储 管理 单元 
/ * 填充 区 域 页 表 项 */ 





for (i= region- —nutPages -1;1 >= 0;:i—) 
i 
For (j=15 ;] >= {{]——) 
x PTEptr — = РТЕ + (i << 16), /* 1 = 64 KB large page + / 
} 
break; 
} 
case SMATIPAGE, 
{ 
PTEptr += (region- —vAddress & 0х0002Ё000) >> 12; / #8 ЙЕ +/ 


sHUN jueuuoDDUDJN AIOUISIA pL 


PiEptr += (region- —numPages - 1); +# 最 后 一 个 页 表 项 <* / 
PIE = region- —pñddress & ÜxfffffÜUD; it W 835 HHO DE x 7 
PTE |= tempAP << 10; г 设置 访问 权限 subpage 3 < / 
PTE |= tempAP << 8; / * subpaqe 2 * / 
PTE (= tempAP << 6; /* subpage 1 * / 
PTE |= temphD «< 4; | / ж subpage 0 « / 
PTE |= (region- 2>СВ & 0x3) << 2; / * 设置 cache EIER ЕЩ = / 
PTE |= 0x2; / ж set as SMALL PAGE # / 
/ * 填充 区 域 页 表 项 + / 515 


for (i-region- —numPages — 1;i > = 0;i1— ) 
t 
ж РТЁрїт—— = РТЕ + (i << 12); /* i=4 ЕВ small раде» / 
) . 
break; 


) 
default, 


1 
printf("mmuMapCoarseTableRegion, Incorrect page sizein" ); 


return — і; 


} 


return 0; 


j 
在 例 程 的 开始 , 先 设置 局 部 变量 tempAP, 使 它 保存 区 域 中 页 或 子 页 的 访问 权限 。 接 着 
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没 置 变量 PTEptr. [f E TB Elit RE A ESSE DX DI e) E Rb HL: . 

然后 例 程 分 别 选 择 处 理 大 (large) 或 小 (small) 页 的 情况 ,两 种 情况 所 使 用 的 算法 是 一 样 
的 ,只 是 PTE 的 格式 和 写 入 页 表 的 条 目 不 同 。 

这 时 变量 PTEptr 包含 L 页 表 的 起 始 地 址 。 然 后 例 程 使 用 区 域 的 起 始 地 址 region 一 > 
vAddress 计算 页 表 中 区 域 的 第 一 个 项 的 索引 ,将 这 个 索引 值 加 到 PTEptr 中 。 下 一 个 程序 
行 计算 区 域 的 大 小 ,将 该 值 加 到 PTEptr 中 。 这 时 PTEptr 指向 区 域 的 最 后 一 个 页 天 项 
(PTE), 

接 下 来 以 传 给 例 程 的 区 域 中 的 值 , 为 大 或 小 的 页 表 项 构造 页 表 项 变量 PTE。 例 程 使 用 
一 系列 的 OR 语句 来 构造 PTE, 包 括 起 始 物理 地 址 .访问 权限 以 及 cache 和 写 缓冲 器 属性 ， 
ЧИЗ ИЯ 14.8 复习 一 下 大 和 小 的 PTE EX, 

这 时 PTE 包含 指向 区 域 的 第 一 个 页 帧 的 物理 地 址 的 指针 。 计数器 变量 i 有 2 个 作用 ; 
首先 它 是 页 表 偏 移 量 (offset) ;其 次 它 加 到 PTE 变量 中 ,以 修改 地 址 转换 位 域 ,使 PTE 指向 
物理 存储 器 中 下 一 个 低地 址 的 页 帧 。 例 程 将 区 域 的 所 有 PTE 写 人 页 表 后 结束 。 特 别 要 指 
出 的 是 ,LARGEPAGE 这 个 case 中 有 一 个 虞 套 的 循环 一 一 j 循环 , 它 通过 写 人 所 需 相 同 的 
PTE 来 映射 粗 页 表 中 大 的 页 (详细 内 容 请 参见 14. 4 节 ) 。 


СЯ 14. 9】 使 用 区 域 转换 信息 填充 细 责 表 。 
ARM720T 中 没有 细 页 囊 ,ARM v6 体系 结构 也 不 再 使 用 负责 为 了 与 这 些 改 变相 
兼容 ,建议 在 新 项 目 中 不 要 再 使 用 细 页 表 ， 


# if defined(__TARGET CPU ARM920T) 
int mmuMapFineTableRegion(Region * region) 
| 

int i,i: 

unsigned int * PTEptr, PTE; 

unsigned int tenp? = region- 7-AP & 0x3, 


PTEptr = (unsigned int * )region- —PT- —ptAddress; /* 页 表 超 始 地 址 * / 


switch (region ~ —pageSize) 
{ 
case LARGEPAGE ， 
1 
PTEptr += (reqion~ 7»vÀddress & 0x000f£c00) >> 10; /x 5S — E32 / 
PTEptr += (region- —-numPages x 64) – 1; БКА» 


PTS = region- `>рАййгевв & ОхҒЄҒҒ0000; Г 物理 地 址 */ 
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PTE | = tempàP ¿< 10; ”+ 设置 访问 权限 subpage 3 > / 
ETE | = temphP << B, / x subpage 2 x / 
PTE | = tempAP << 6; | / * subpage 1 * / 
PTE | = tempAP << d; / ж subpage ü » / 
PTE | = (region- 2>С8 & 0х3) << 2; / * 设置 cache У ЕЩЕ + / 
PTE | = 0x1; / * set as LARGE PAGE +» / 

/x OPUS Ra + 7 


for (1 = region- —numPages-1;1 >= 0;i—- ) 
{ 
for (j263,j >= 03] — ) 
ж РТЕріг — = РТЕ + (i << 16); /* i754 КВ large page + / 


spun шәшәбюшор AJOLLIƏIA] ў | 


} 
break; 
} 
case SMALLPAGE, 
{ 
РТЕріг += (region- —»vhddress & 0х000#Ғс00) >> 10, /3# 第 一 个 页 表 项 * / 














PTEptr += (region- —numPages #4) ~ 1; /sx# 最 后 一 个 页 表 项 < / 
PTE = region ~ > pAddress & ОхЁЇЁЁЇ000; / * 物理 地 址 * / 
PTE |= tempàP << 10; / * 设置 访问 权限 subpage 3 x / 517 
PTE |= фешрАР << 8; / ж subpage 2 x / 
PTE |= tempàP << 6, / * subpage 1 x / 
PTE |= tempAP << 4; / * subpage 0 = / 
PIE |= (region- >CB & 0x3} << 2; / * 设置 cache RI иН + / 
PTE |= 0x2, — / * get as SMALL PAGE x / 
У 3⁄2 E X k D RO + / 


for (1 = region- —numPages-1;i > = Q1i— ) 
{ 
for (j=3 ;j >= 0;j--) 
ж FTEptr — = РТЕ + (i << 12); /* i = 4 KB small page s / 
} 
break; 
} 
case TINYPAGE, 
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PTEptr 4-(ragion- >vhddress & Ox000ffcO0) >> 10: кж КЖ 


PTEptr += (region- —numPages — 1); £ 最 后 一 个 页 表 项 = / 

FTE = region- >рАййгевз & Üxfffffc00; / + 物理 地 址 *; 

FTE |=  tempAP << 4; A#* 设置 沪 问 权限 */ 

РТЕ |- (region- —CB & 0x3) << 2; / * WE cache RUSSIE TERR ҮЕ < / 
PTE i= 0х3, /* set as TINY PAGE x / 


/* Ks aR EE — 1 Bode сет 3 
for (i-(region- —numPages) - 1;i >= 0;1--) 
{ 
x PIEptr — = РТЕ + (i << 10); /* i=1 KB tiny page x / 
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default. 
i 
printf("mmuMapFineTableRegion; Incorrect page sizen"); 
return - 1; 
} 
} 
return 0; 


j 
it endif 


在 便 程 的 开始 , 先 设置 局 部 变量 tempAP, 使 它 保 存 区 域 中 页 或 子 页 的 访问 权限 。 这 个 
例 程 不 支持 子 真 拥有 不 同 的 访问 权限 。 接 着 设置 变量 PTEptr, 使 它 指 向 页 表 的 基地 址 ,这 
个 页 宕 将 用 来 保存 映射 到 细 分 页 的 区 域 ， 

然后 , 例 程 选择 处 理 大 、 小 或 微 页 的 3 种 情况 。3 个 сазе 所 使 用 的 算法 是 一 样 的 ,只 是 
PTE 的 格式 和 写 人 页 表 条 目 不 同 。 

这 时 变量 PTEptr 包含 L2 页 表 的 起 始 地 址 。 然 后 例 程 使 用 区 域 的 起 始 地 直 region 
— vÀddress 计算 页 表 中 第 一 个 区 域 项 的 索引 ,将 这 个 索引 值 加 到 PTEptr 中 。 下 一 个 程 
序 行 确定 区 域 的 大 小 ,将 该 值 加 到 PTEptr 中 。 现 在 PTEptr 指向 区 域 的 最 后 一 个 页 表 项 
(PTE). 

接 下 来 例 程 以 区 域 中 的 值 ,为 大 、 小 或 微 页 表 项 构造 PTE。 例 程 使 用 一 系列 OR 语句 
来 构造 一 个 PTE, 包 括 起 始 物理 地 址 .访问 权限 以 及 cache 和 和 号 缓冲 器 属性 图 14 8 措 述 
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了 大 .小 和 微 页 表 项 的 格式 。 

这 时 PTE 包含 了 指向 区 域 的 第 一 个 页 帧 的 物理 地 址 和 属性 的 指针 。 计 数 器 变量 ;有 2 
个 作用 :首先 它 是 页 表 偏 移 量 (offset) ;其 次 它 加 到 PTE 变量 中 ,以 修改 地 址 转换 位 域 ,使 得 
PTE 指向 物理 存储 器 中 下 一 个 低地 址 的 页 帧 。 执 行 循环 ,直到 将 区 域 的 所 有 PTE 写 人 页 
表 中 ,然后 例 程 结束 。 特 别 要 指出 的 是 ,LARGEPAGE 和 SMALLPAGE 这 2 个 case 中 有 
一 个 媒 套 的 循环 一 一 j 循环 , 它 写 人 所 需 相 同 的 PTE 来 映射 细 页 表 中 的 给 定 页 。 


页 表 可 以 保存 在 存储 器 中 ,而 不 被 ММО 硬件 使 用 。 这 种 情况 发 生 在 当 任 务 处 于 睡眠 
态 时 ,其 页 表 被 映射 到 活跃 的 虚 存 之 外 。 然 而 任务 仍 驻 留 在 物理 存储 器 中 ， ИШАА 
文 切 换 激 活 这 个 任务 时 , 它 立 即 又 可 以 使 用 。 

初始 化 MMU 的 第 3 步 是 ,为 了 执行 位 于 特定 区 域 的 代码 ,激活 所 需 的 页 表 。 

[5|14.10] 例 程 mmuAttachPT 或 者 激活 一 个 L1 主页 表 ( 通 过 将 其 地 址 放 到 CP15; 
c2:c0 寄存 器 的 TTB 中 ); 或 者 激活 一 个 L2 页 表 ( 通 过 将 其 基地 址 放 到 L1 主页 表 项 中 ) 。 

它 的 函数 原型 如 下 : 


int mmuAttachPT(Pagetable * pt); 


例 程 只 接受 一 个 参数 一 一 指向 待 激活 Pagetable 的 指针 ,并 增加 新 的 从 虚 存 到 物理 存 
储 器 的 转换 数据 。 
int mmuAttachPT(Pagetable * pt) / * jË L2 PT BRIT L1 E PT x / 


{ 
unsigned int * ttb, PTE, offset; 


spun шәшәбюируү OWN tl 


519 


ttb = (unsigned int * )pt - masterPtAddress; / * 从 PT rfj ttb x / 
offset = (pt- —vAddress) >> 20; / * № vAddress t E PTE x / 


switch (pt - type) 
{ 
case MASTER, 
{ 
. asm( MCR p15, 0, ttb, c2, c0, 0) ; / * TIB - > CP15:c2;c0 « / 
break; 
) 
case COARSE; 
{ 
/ ж PTE = addr L2 PT | domain | COARSE PT type x / 
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РТЕ = (pt - —ptAddress & OxfffffcOQ); 
PTE |= pt- —dom << 5; 
PTE |= 0x11; 
ttbloffset] = PTE; 
break; 
} 
# if defined( "TARGET CEU АЮМО20Т) 
сазе FINE. 
{ 
/ * PTE = addr L2 PT | domain | FINE РТ type x / 
PTE = (pt - —ptAddresa & Üx£fff£O00); 
PTE |= pt- dom << 5; 
PTE |= 0x13, 
ttb[ offset] = PTE; 
break; 
} 
H endif 
default, 
i 
printf("mmuAttachPT, UNKNOWN pagetable typein"); 


return -1; 


该 例 程 做 的 第 一 件 事 是 ,准备 2 个 变量 :L1 主页 表 的 基地 址 ttb 和 L 页 表 偏 移 量 off- 
set, ЖЩ offset 由 页 表 的 虚 地 址 产生 。 为 了 计算 偏 移 量 , 例 程 读 取 虚 地 址 ,然后 除 以 ] MB， 
这 通过 将 虚 地 址 右 移 20 位 来 实现 。 将 这 个 偏 移 量 加 到 L 主页 表 的 基地 址 ,产生 .个 指 
针 , 指 向 Li 主页 表 中 代表 1 MB 段 的 转换 数据 的 地 址 。 

例 程 用 Pagetable 类 型 的 pt— > type 变量 来 跳 转 到 相关 页 表 的 case, 将 页 表 系 于 (at- 
tach)MMU 硬件 。3 个 可 能 的 case 将 在 下 面 描述 。 


© MASTER 处 理 Li 主页 表 。 例 程 使 用 汇编 语言 的 MCR 指令 来 设置 CP15;c2,c0 寄 
存 器 ,处 理 这 个 畦 殊 的 页 表 。 

€ COARSE 把 一 个 粗 页 表 系 于 L1 主页 表 中 。 这 个 case 读 取 保存 在 Pagetable 结构 中 

| 的 页 表 地 址 ,组 合 结构 的 dom 成 员 和 粗 页 表 类 型 ,构造 PTE 。 然后 将 PTE 写 人 
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L1 页 表 , 这 使 用 前 面 计 算得 到 的 偏 移 值 。 粗 PTE 的 格式 如 图 14. 6 所 示 。 

e FINE 把 一 个 12 细 页 表 系 于 L1 主页 表 中 。 这 个 case 读 取 保存 在 Pagetable 结构 
中 的 L2 页 表 地 址 ,组 合 结构 的 dom 成 员 和 细 页 表 类 型 ,构造 PTE。 然 后 使 用 前 面 
计算 得 到 的 偏 移 值 ,将 PTE S ALI vC. 


以 上 章节 给 出 了 初始 化 MMU 时 判断 、 装 载 和 激活 页 表 的 例 程 。 下 面 将 设置 域 访问 权 
ШН ВЕ MMU, 













1.10. | HE ВЕ ММО 

初始 化 MMU 的 第 4 步 是 配置 系统 的 域 (domain) 访 问 权 限 。 示 例 中 不 使 用 FCSE ,也 
不 需要 快速 显现 (expose) 和 隐藏 (hide) 大 块 的 存储 器 ,因此 不 需要 使 用 CP15:cl:e0 寄存 器 
中 的 S 和 RR 访问 控制 位 。 这 意味 着 页 表 中 定义 的 访问 权限 对 保护 系统 来 说 已 经 足够 ,并 且 
应 该 使 用 域 。 

然而 ,硬件 需要 所 有 活跃 的 存储 空间 有 域 的 分 配 ,并 赋予 域 访 问 权 限 。 最 简单 的 域 配置 
是 将 所 有 的 区 域 (region) 放 在 同一 个 域 (domain) 里 ,把 域 的 访问 权限 设置 为 客户 访问 允许 。 
在 域 的 这 种 配置 下 ,只 有 页 表 中 人 允许 访问 的 项 才 是 系统 活跃 项 。 

示例 中 ,所 有 的 区 域 都 分 配 在 域 3, 并 分 配 客户 访问 允许 权限 。 其 它 的 域 不 使 用 ,并 通 
ib Ll 主页 表 的 未 使 用 页 表 项 中 的 错误 (fault) 项 ,将 不 使 用 的 域 屏 项 掉 。 域 在 L1 主页 表 中 


分 配 , 域 访问 权限 在 CP15:c3:c0 寄存 器 中 定义 。 


【 例 14.11】 domainAccessSet 例 程 设 置 域 访问 控制 寄存 器 CP15:c3:c0:0 中 16 个 域 
的 访问 权限 。 它 的 函数 原型 如 下 ; 


void domainAccessSet(unsigned int value, unsigned int mask); 


传递 给 例 程 的 第 1 个 参数 是 一 个 无 符号 整数 ,包含 设置 16 个 域 的 域 访问 权限 的 位 域 。 
第 2 个 参数 决定 需要 改变 哪些 域 的 访问 权限 。 例 程 首先 读 CP15:c3 寄存 器 ,将 其 值 保存 到 
c3format 变量 中 ;然后 使 用 输入 的 mask 值 清 除 c3format 中 需要 更 新 的 位 ,这 是 通过 把 变量 
c3format 和 输入 的 value 值 做 OR 运算 来 完成 的 ;最 后 将 更 新 后 的 c3format 值 回 写 到 
CP15:c3 寄存 器 ,完成 设置 域 访问 权限 。 

void domainAccessSet(unsigned int value, unsigned int mask) 


{ 


unsigned int c3format; 
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— asm(MRC p15, 0, c3format, c3, c0, 0) /« 读 域 寄存 器 * / 
c3format & = ~ mask; /# 清 除 要 改变 的 位 * / 
c3format |= value; /* 设 置 要 改变 的 位 x / 











ARM 系 庶 入 式 统 开发 


. asm(MCR pl5, 0, c3format, c3, c0, 0) /* 写 域 寄存 器 * / 


使 能 MMU 是 初始 化 MMU 过 程 的 第 5 步 ,也 是 最 后 一 步 。 例 程 controlSet( 例 14. 3) 
使 能 MMU 。 建 议 在 一 个 “固定 ”的 地 址 空间 中 调用 controlSet 例 程 。 


TN 
1 1n. Don TS 
4 j А 


例 程 mmulnit 调用 前 面 章 节 中 描述 的 例 程 ,初始 化 示例 的 MMU。 读 这 段 代码 时 ,可 以 
先 复习 一 下 14. 10.5 小 节 介 绍 的 控制 块 。 
例 程 的 C 函数 原型 如 下 : 


void mmuInit(void); 


【 例 14.12). 调用 前 面 描述 的 初始 化 MMU 的 5 个 步骤 。5 个 步骤 在 例子 代码 中 以 注 
释 的 形式 标 出 。 

在 例 程 mmuInit 的 开始 , 先 初始 化 页 表 , 并 将 区 域 映射 到 特权 的 系统 区 域 。 第 1 步 是 
调用 mmulnitP T 例 程 , 初 始 化 固定 的 系统 空间 。 这 些 调用 使 用 FAULT 值 填充 L1 主页 表 
和 工 2 页 表 。 例 程 调用 mmuInitPT 5 次 :一 次 初始 化 L1 主页 表 ; 一 次 初始 化 系统 L2 页 表 ; 
然后 3 次 调用 mmuInitPT 初始 化 3 个 任务 页 表 : 
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# def ine DOM3CLT 0x00000040 
# def ine CHANGEALLDOM Oxffffffff 
522 # define ENABLEMMU 0x00000001 
# define ENABLEDCACHE 0x00000004 
# define ENABLEICACHE 0x00001000 
# define CHANGEMMU 0x00000001 
# def ine CHANGEDCACHE 0x00000004 
# def ine CHANGEICACHE 0x00001000 
# define ENABLEWB 0x00000008 
# def ine CHANGEWB 0x00000008 


void mmuInit() 
I 
unsigned int enable, change; 


/* 第 1 步 初始 化 系统 (固定 的 ) 页 表 * / 
mmulnitPT(&masterPT); / * IIRAL E Ll PT fil FAULT PTE x / 
mmuInitPT(&systemPT); /* 初始 化 系统 L2 PT fil FAULT PTE x / 











mnmulnitPTt&task3PT); /s ds iL IE 3 12 PT # FAULT PTE x / 
mnulnitPT(&task2PT); /* NS EIE SE 2 L2 РТЖ FAULT PTE x / 
mmuInitPT(&tasklPT); / x WAG IE fES 1 12 PT 和 FAULT PIE + / 


“* 第 2 步 使 用 转换 和 属性 数据 填充 页 表 x* / 


mmuMapRegion( &kernelRegion); 
mmuMapReGion(&sharedRegion); 
mmuMapRegion( &pageTableRegion); 
mmuMapHegion( &peripheralRegion); 


/* ВЯ kernelRegion SystemPT ж / ` 

/ * 8} sharedRegion SystemDT < / 

/ ж В pagetableRegion SystemPT x / 
/ * WES peripheralRegion MasterPT x / 


mmuKapRegion(&t3Region); е BE MIES 3 PT 和 区 域 数 据 * / 
mmuMaphRegion(&St2Region); /* 映射 任务 2 PT 和 区 域 数据 * / 
mnuMapRegion(&tlRegion); ВЕЖ 2 PT 和 区 域 数 据 < / 


/+ 第 3 步 激活 页 表 * / 


/ * W Ll TTB 装载 到 CP15:c2:c0 ЖЕШ + / 
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umuAttachPT(&masterPT); 

mnu&ttachPT(&systeuPT) ; Га FEL2 ЖЮ PTE 装载 到 Ll PT x / 

mmuñttachPT(S&task1PT), /* Ж 12{Е# 1 PTE 装载 到 Li PT / 

жав 设置 域 访 问 * / 

domainAccessSet(DOM3CLT,CHANGEALLDOOD ; / E 置 域 访 问 + / 523 


/*@ 5% WAMU, caches ARAME х / 


H if def ined( TARGET CPU ARM720T) 


enable = ENARLEMMU | ENABLECACHR | ENABLEWB ; 
change - CHANGEMMU | CHANGECACHE | CHANCEWB ; 


Ë endif 





Hif def ined(_TARGET_CPU_ARM920T) 
enable = KWABLEMMU | ENABLEICACHE | ENABLEDCACHE ; 
change = CHANGEMMU | CHANGEICACHE | CHANGEDCACHE ; 
# endif 
controlSet(enable, change), 
} 


第 2 步 通过 调用 mmuMapRegion 例 程 7 次 ,将 系统 的 7 个 区 域 映射 到 其 页 表 中 ,次 


RIAR HR ,页 表 和 外 设 区 域 ,3 次 映射 3 个 任务 区 域 。 mmuMapRegion 将 控制 块 中 的 
数据 转化 成 页 表 项 ,然后 将 这 些 页 表 项 写 人 页 表 ， 


/ * 86 cache Ж MMU = / 
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初始 化 MMU 的 第 3 步 是 激活 启动 系统 所 需 的 页 表 , 这 是 通过 3 次 调用 mmuAt- 
tachPT 例 程 来 完成 的 。 例 程 首先 将 LI 主页 表 的 基地 址 装载 到 CP15:c2;c0 的 TTE ЖЖ 
WL 主页 表 , 然 后 激活 L.2 系统 页 表 。 外 设 区 域 由 保存 在 L1 主页 表 中 的 1 MB 页 组 成 ,在 
LI 主页 表 激 活 时 它 就 被 濑 活 了 。 景 后 调用 mmuAttachPT 例 程 ,激活 系统 启动 后 将 要 运行 
的 第 一 个 任务 。 这 个 示例 中 ,要 运行 的 第 一 个 任务 是 任务 1。 

初始 化 MMU 的 第 4 步 是 调用 domainAccessSet 例 程 ,设置 城 访问 权限 。 所 有 的 区 域 
都 分 配 到 域 3, 域 3 的 域 访 问 权限 设置 成 客户 访问 允许 ， 

BUB mmulnit 最 后 调用 controlSet 例 程 ,使 能 MMU 和 cache, 

例 程 mmuinit 执行 完 后 ,MMU 初始 化 完毕 并 被 使 能 了 。 建 立 多 任务 示 倘 系统 的 最 后 
一 个 任务 是 ,定义 在 2 个 任务 间 执 行 上 下 文 切 换 所 需要 的 程序 ， 


14.10.7 第 7 步 :建立 上 下 文 切换 程序 


示例 系统 的 上 下 文 切换 相对 来 说 比较 简单 ,主要 有 以 下 6 个 步骤 ， 


(D 保 存活 脾 任 务 的 上 下 文 , 并 将 医 路 任务 置 为 隆 距 态 ; 

名 清除 cache; 如 果 使 用 回 写 策略 , 则 还 要 清理 数据 cache; 

O 清除 ТІВ, 以 删除 退出 任务 的 转换 数据 ; 

(D EE MMU ,以 使 用 新 的 页 表 , 把 同样 的 虚 存 执行 空间 转换 到 史 醒 任务 在 物理 存储 
RUPEE: 

 BNIEEHES ES F TX; 

@ 开始 执行 恢复 的 任务 。 


执行 以 上 步骤 的 例 程 已 在 前 面 章节 中 介绍 过 了 ,这 里 只 是 简单 地 列 出 这 些 例 程 。 第 1， 
5 和 6 ФЕЯ 11 章 介 绍 过 ;详细 内 容 可 以 参见 第 11 章 。 第 2,3 积 4 步 是 使 用 MMU 上 下 
文 切 换 需要 增加 的 部 分 ,与 其 一 起 列 出 的 是 示例 中 从 任务 1 切换 到 任务 2 所 需 的 参数 ， 
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SAVE retiring task context, /xs 第 1 步 在 第 11 音 中 介绍 * 7/ 
£lushCache(); A#* 第 2 步 在 第 12 章 中 介绍 */ 
flushTLR(), 7 第 3 些 在 例 14.2 4E / 
amuAttachPT(&task2PT) ; 7* 第 4 步 在 例 14.10 中 介绍 * / 
RESTORE awakening task context +/* 第 5 步 在 第 11 章 中 介绍 #4/ 


RESUME execution of restored task /3# 第 5 步 在 第 11 章 中 介绍 * 7 
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I 
14.11 MMUSLOS 示例 > 
j 
Š 
MMU 示例 代码 中 的 许多 概念 和 例子 被 包含 到 一 个 实用 的 控制 系统 中 ,该 系统 被 称 为 z 
mmuSLOS。 它 是 第 11 章 介绍 的 SLOS 控制 系统 的 扩展 。 总 
mpuSLOS 是 SLOS 带 存储 保护 单元 的 扩展 ,已 经 在 第 13 章 中 介绍 过 了 。 这 里 使 用 д 
mpusLOS 作为 mmuSLOS 的 基本 源 代 码 ， 与 mpuSLOS 相 比 ,mmuSLOS 主要 有 以 下 3 个 (D 
变化 。 3 
€ MMU 页 表 是 在 mmuSLOS 的 初始 化 阶段 建立 的 ， z 
€ 应 用 程序 任务 被 构建 成 在 地 址 0x400000 处 执行 ,但 是 它们 被 装载 在 不 同 的 物理 地 | 2 
址 上 。 每 个 应 用 程序 任务 从 它 的 执行 地 址 开始 ,在 一 个 虚 存 中 执行 。 栈 顶 被 定位 在 “| 2 
执行 地 址 的 32 KB 偏 移 处 ， | 
e 每 次 调用 调度 器 ,都 改 变 MMU TEPER 32 KBT, DU BEL И ЕЕН 
或 任务 。 


14.12 总 结 





本 章 介绍 了 存储 天 管理 和 庶 拟 存储 如 系统 的 基本 知识 。MMIU 的 一 个 主要 服务 是 能 把 | 


省 个 任务 作为 各 自 独立 的 程序 在 其 自己 的 卉 拟 存储 空间 中 运行 。 

忠 拟 存储器 系统 的 一 个 重要 特征 是 地 址 重 定位 。 地 址 蛋 定 位 是 将 处 理 器 核 产 生 的 地 址 
转换 到 主 存 的 不 同 地 址 ,转换 由 MMU 硬件 完成 。 

在 一 个 虚拟 存储 网 系 统 中 , 虚 存 通常 作为 固定 空间 或 动态 空间 被 分 成 几 个 部 分 。 在 固 
定 空 间 内 ,映射 在 页 表 中 的 转换 数据 在 普通 操作 中 不 发 生变 化 ;在 动态 空间 内 ,起 存 到 物 更 
存储 器 之 间 的 映射 关系 频繁 发 生变 化 。 

页 天 包含 型 拟 页 的 描述 信息 。 一 个 页 表 项 (PTE) 将 虚 存 中 的 一 页 转 摘 成 物理 存储 恬 中 
的 一 个 页 帧 。 页 袁 项 通过 虚 地 址 进行 组 织 , 包 含 将 一 页 转换 成 一 个 页 帧 的 转换 数据 。 

ARM ММО 的 功能 如 下 ， 


@ 读 Ll 和 12 页 表 , 并 将 其 装载 到 TLB 中 ， 

e 在 TLB 中 保存 最 近 的 处 一 实地 址 转换 数据 ; 
e 执行 虚 地 址 到 实地 址 的 转换 ; 

e 强化 访问 权限 ,配置 cache 和 写 缓冲 器 ， 





ARM ЖЕЛАЛ 


ARM MMU 中 增加 的 一 个 特殊 功能 是 快速 上 下 文 切换 扩展 (FCSPE)。 人 快速 上 下 文 切 
换 扩展 改善 了 多 任务 环境 中 的 系统 性 能 ,因为 在 上 下 文 切换 时 , 它 不 需要 清除 cache 
fi TLB, | 

一 个 简单 的 虚拟 存储 器 系统 的 实用 例子 详细 介绍 了 配置 MMU ,以 支持 名 任务 的 过 程 。 
配置 步骤 为 :定义 虚 存 的 固定 系统 软件 所 使 用 的 区 域 ;定义 每 个 任务 的 虚拟 存 秒 映射 ;将 任 
务 的 区 域 定 位 到 物理 存储 器 映射 中 :在 页 表 区 域 中 定义 和 定位 页 表 ; 定 义 创建 ,管理 区 域 和 
页 表 所 需要 的 数据 结构 ;初始 化 MMU ;使 用 预定 义 的 区 域 数据 构造 页 表 项 ,并 将 它们 写 入 
页 表 中 + 建立 上 下 文 切 换 例 程 , 从 一 个 任务 转换 到 另 一 个 任务 。 
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第 15 š 
ARM 体系 结构 的 发 展 


€ ARM v6 44 £ #6 DSP 和 SIMD ë 3,8 
€ ARM v6 jo $ dido $ t 8 3. 
& ARM v6 # X 5 

è ARM 62 & ó À k à + 

eg # 


ARM 嵌入 式 系 统 开发 


1999 年 10 AARM 开始 考 韦 体 系 结构 的 未 来 发 展 方向 ,最 终 姓 生 了 ARMv6 ,并 在 一 
个 新 的 产品 ARM1136] - 5 中 第 一 次 得 到 了 运用 . 到 目前 为 止 , 针 对 许多 不 同类 型 的 应 用 ， 
ARM 已 经 有 多 种 设计 。 我 们 不 仅 需要 分 析 、 评 佑 这 些 应 用 将 来 的 每 一 个 新 要 求 , 同 时 还 须 
考虑 未 来 ARM 可 能 的 新 的 应 用 领域 。 

随 着 片上 系统 设计 变 得 更 加 精密 ,复杂 ,ARM 处 理 器 已 成 为 包含 多 个 处 理 部 件 和 子 系 
统 的 系统 核心 处 理 器 。 特别 是 便携 式 和 移动 计算 市 场 ,给 ARM 带 来 了 新 的 软件 和 性 能 的 
挑战 。 需 要 面向 的 领域 包括 :针对 便携 式 设 备 的 数字 信号 处 理 (DSP) 和 视频 性 能 ;大 端 -小 
端 混合 系统 的 交互 ,例如 TCP/IP; 才 处 理 器 环境 下 的 高 效 则 步 等 。ARM 面临 的 挑战 是 , 满 
足 所 有 这 些 市 场 的 需求 ,同时 在 计算 效率 (每 mW 的 计算 能 力 ) 方 面 ,继续 保持 工业 界 最 强 
的 竞争 优势 。 

本 章 将 介绍 ARM 公司 针对 以 上 市 场 需求 ,在 ARMv6 中 引信 的 新 技术 和 结构 组 成 , 包 
括 增 强 的 DSP 支持 和 对 多 处 理 器 环境 的 支持 。 另 外 ,还 介绍 了 这 种 高 性 能 的 ARMv6 的 第 
一 个 实现 ,还 有 ARM 的 最 新 技术 之 一 


15.1 ARMv6 对 高 级 DSP 和 SIMD 的 支持 
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在 ARMv6 项 目的 早期 ,ARM 就 开始 考虑 如 何在 ARMv5E(3. 7 节 中 描述 ) 扩 展 的 基础 
上 ,进一步 提高 体系 结构 的 DSP 和 媒体 处 理 能 力 。 这 项 工作 的 开展 , 是 和 早期 开发 
ARMi136] - S 产 品 的 微 体 系 结构 的 工程 组 紧密 结合 的 。 单 指令 流 多 数据 流 (SIMD) 是 一 
种 流行 的 技术 ,用 于 并 行 地 存储 大 量 的 数据 。 对 于 DSP 中 普遍 使 用 的 含有 大 量 复杂 数学 运 
算 的 程序 ,如 视频 和 图 像 处 理 算法 ,这 种 技术 特别 有 效 。SIMD 最 大 的 优点 就 是 高 代码 密度 
和 低 功 耗 ,因为 执行 的 指令 数量 很 少 (同样 减少 了 存 赃 系统 的 访问 )。 但 这 种 效率 的 代价 是 ， 
降 你 了 灵活 性 ,内 为 必须 为 计算 安排 好 固定 的 块 数据 格式 。 不 过 ,这 种 技术 在 许多 图 像 和 信 
号 处 理 算 法 中 运用 得 非常 好 。 

遵循 标准 的 ARM 低 功 耗 .高 计算 效率 设计 原则 ,ARM 提出 了 一 种 简单 而 又 先进 的 方 
法 ,将 现存 的 32 位 ARM 数据 通道 划分 成 4 个 8 位 或 2 个 16 位 的 片段 (slice}。 不 同 于 许多 
现 有 的 SIMD 结构 ,为 SIMD 操作 增加 独立 的 数据 总 线 ; 这 种 方法 以 最 小 的 硬件 代价 ,把 
SIMD 加 入 到 基本 的 ARM 体系 结构 中 。 | 

ARMv6 体系 结构 中 包含 了 这 种 “ 轻 量 级 (lightweight)” 的 SIMD FE, E UND 8 e E 
( 门 计数 } 和 功 耗 方面 ,也 几乎 无 须 付 出 什么 代价 。 同时 ,新 的 指令 能 够 提高 一 些 算 法 的 处 理 
FR УР 16 位 的 数据 最 大 可 达 2 们 ;对 于 8 位 的 数据 最 大 可 达 4 . Н ARM 指令 集 
结构 中 的 大 部 分 操作 一 样 , 所 有 的 这 些 新 指令 都 是 条 件 执行 的 ,如 2. 2. 6 Ду ЕЕ Ж. 

可 以 在 附录 A 的 指令 集 囊 中 找到 所 有 ARMv6 指令 的 详细 描述 。 
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15.1.1 SIMD 算法 操作 


表 15.1 中 列 出 了 8 位 的 SIMD 操作 。 源 操作 数 中 包含 多 个 以 字 节 为 单位 的 片段 ,相应 
的 字 节 片段 经 过 算法 操作 后 ,产生 一 个 字 节 结果 。 
* 15.1. 8 位 SIMD 算法 操作 





SSHUDIVY Syl J0 өгү әш gi 


M + LIES: 

SADD8 { <<сопа2> } Rd, Rn, Rm 有 符 导 8 位 SIMDINE m 
SSUB8 {<cond>} Rd, Rn, Rm AA 801 SIMD ME 

UADD {<сопй>} Rd, Rn. Rm 无 符号 8 位 SIMD 加 法 

USUBS {<Ссопд:>} Rd, Rn, Rm 无 符号 8 位 SIMD ЖЕ 

QADDS («cond») Rd, Rn, Rm # S W з l SIMD 加 法 

QSUBS («cond») Rd, Rn, Rm ЖЕ ЩН 8 {у SIMD 减法 
UQADDS (<cond> Rd, Rn, Rm ЖЖ ЕНЕ! 8 位 SIMD 加 法 
UQSUBS («cond») Rd, Rn. Rm ASMR B 位 SIMD EHE 





这 些 8 位 数据 的 运算 结果 ,可 能 最 多 需要 9 位 数据 来 表示 。 这 样 可 能 会 产生 回 卷 
《wraparound) 或 饱和 ,取决 于 具体 所 使 用 的 特定 指令 。 | 

除了 8 位 的 SIMD 操作 之 外 ,还 有 扩展 的 双 16 r КИЕ, ШЕ 15. 2 中 所 列 出 的 。 源 操 
作 数 中 包含 2 个 16 位 的 数据 片段 ,相应 的 半 字 片段 经 过 算法 操作 后 ,产生 一 个 半 字 (16 BD 
Hm. 
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315.2 16 (z SMD 算法 操作 


# + & È 

SADD16 (<cond>) Rd, Ва, Rm ЖЕРЕ 16 位 SIMD JIP: 
SSUB16 (<cond2>>) Rd, Rn, Rm 有 符号 16 位 SIMD WE 
UADDIS («cond-] Rd, Rn, Rm X459 16 @ SIMD 加 法 
USUBLIS («cond7-] Rd, Rn, Rm 无 符号 16 位 SIMD WE 
QADDIS [« cond») Rd, Rn, Rm AN SARI 16 位 SIMD 加 法 
QSUBI6 { cond») Rd, Rn, Rm 有 符号 您 和 16 位 SIMD Ma 
UQADDIS («cond») Rd, Ва, Rm XAR FAH 16 位 SIMD 加 法 


UQSUBI6 {= сопё>} Rd, Rn, Rm X EHSURI 16 fip SIMD ME 








ARM Ах ЖАЛАЛ 


这 些 16 位 数据 的 运算 结果 ,可 能 需要 17 位 数据 来 存储 。 这 样 就 可 能 在 16 位 有 符号 数 
范围 内 产 牛 回 着 或 饱和 ,取决 于 基体 所 使 用 的 特定 指令 。 

以 上 这 些 SIMD 指令 的 操作 数 ,并 不 总 是 按照 我 们 希望 的 顺序 存放 在 源 寄 存 器 中 。 为 
了 提高 处 理 这 种 情况 的 效率 ,另外 还 有 16 位 的 SIMD 操作 ,用 于 交换 一 个 操作 数 寄存 器 中 
Bg 16 У. 这 些 操作 在 处 理 以 不 辣 边 界 方式 存放 在 存储 器 中 的 半 字 时 ,非常 灵活 ,并 在 
处 理 打包 存储 在 32 位 寄存 器 中 的 16 位 复数 对 (complex number pairs) 时 ,也 特别 有 用 ， 这 
些 操作 包括 有 符号 数 .无 符号 数 .饱和 有 符号 数 以 及 饱和 无 符号 数 等 形式 ,如 表 15. 3 中 
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ЖУ. 
315.3 15 位 带 交 换 SIMD 算法 操作 
# + | Box | 
SADDSUBX («cond») Rd, Rn, Rm 有 符号 高 位 加 法 ,低位 减法 ,Rom 中 半 字 交换 


UADDSUBX («Zcond7-] Rd, Rn, Rm 无 符 导 高 位 加 法 ,低位 减法 ,Rtm 中 半 字 交换 
QADDSUBX {<сопй:>} Rd, Rn, Rm Ж 9 RE pH ELEM EE Rm 中 半 宇 交换 
UQADDSUBX (<—cond>] Rd, Rn, Rm ЗНН f IK RERE Rm 中 半 字 交换 
SSUBADDKX { <сопа>> } Rd, Rn, Rm НЕЗА ЕА Rm 中 半 字 交换 
USUBADDX (cond) Rd, Rn, Rm 光 符 号 高位 减法 ,低位 加 法 ,Rm dE SEE PR 
QSSUBADDX («cond») Rd, Rn. Rm 有 符号 他 和 商 位 减法 ,低位 加 法 ,Rm 中 半 字 交换 
UQSUBADDX /«cond7) Rd, Rn, Rm XAES NUR nO ,低位 加 法 ,Rm 中 半 字 交换 


这 些 指令 中 前 符 号 和 意味 着 Rm 中 的 2 个 半 字 。 在 进行 运算 操作 之 前 ,应 先进 行 交 换 
操作 ,如 下 所 示 ， 

Rd[15,0] =Ra[15:0] — Rr(31:16] 

Rd[31,16] = Rn[ 31,16] + Rm[15;0] 


这 些 新 增 的 SIMD 运算 意味 着 需要 有 一 种 方法 来 表示 数据 通道 上 每 一 个 SIMD 片段 运 
算 产生 的 进位 或 者 溢出 。 在 2,2. 5 小 节 中 所 描述 的 cpsr 寄存 器 中 ,增加 了 4 个 附加 的 标 
志 ,以 分 别 表示 数据 通道 每 8 位 数据 片段 的 状态 。 新 的 修改 后 的 cpsr 寄存 器 见 图 15.1 和 
表 15.4, 其 中 包含 了 GE 位 。 每 个 GE 位 分 别 作 为 数据 通道 上 各 个 数据 片段 的 "大 于 或 等 
于 ?标志 。 

操作 系统 已 经 在 上 下 文 切换 时 保存 了 cpsr 寄存 器 ,因此 在 cpsr 中 加 土 这 些 位 ,对 于 栖 
和 结构 对 操作 系统 的 支持 不 会 有 什么 影响 。 
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3| 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 1211 1098 76 5 4 3210 


масу кь [eus] ns Барет me | 





图 15.1 ARMYwv6 的 cpsr 寄存 器 


Ў 15.4 ARMv6 的 cpsr 域 





E 使 用 
N 负 标志 。 记 录 标 志 设置 操作 结果 的 31 位 
z Tp. ЧЕНЕЛТЕ 
C 进位 标志 。 无 符号 的 如 法 操作 的 进位 ,减法 操作 的 借 位 ,同时 也 用 于 搬 坏 移 位 
操作 。 见 附录 表 А.З 
V 谤 出 标志 ， 沁 录 标 志 设 置换 作 的 带 符号 的 溢出 
Q TW. — u N IE TES Ж ШЖ W Dn E Б.И LIE SEA 中 的 QADD 
的 例子 (ARMv5E 和 以 上 的 版 本 ) 
] J] 一 1 表示 执行 Java HAME T — 00, 使 用 BX 指令 来 改变 该 位 的 值 
CARMv5] 和 以 上 的 版 本 ) 
Res 这些 位 保留 ,用 于 将 来 扩展 。 软件 应 该 柑 包 这 些 位 中 的 什 
GEL3:0] SIMD 大 于 或 等 于 标志 。 详 见 附 录 A Фй SADD( ARMv6) 
Е ИЖЕ KMI. EIR 上 中 的 SETEND( ARMv6) 
А A=1 Жа РА САЕМ) 
I I-1 & IRQ ri xiii 
,F Е=1 使 FIQ 中 断 无 次 


T T=1 表示 Thumb ;Т=0 表示 ARM 状态 。 使 用 BX 或 BLX # dock Ekap 
这 一 位 [ARMv4T 和 以 上 的 版 本 》 


enoeyjusN SUL dO ANN eur С 
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mode 当前 的 处 理 器 模式 , 见 附录 表 B. 4 


除了 基本 的 SIMD 数据 段 的 算法 操作 之 外 ,还 有 一 些 操作 ,可 以 挑选 数据 通道 上 的 某 些 
独立 的 数据 单元 ,并 用 这 些 单元 组 成 新 的 数据 集合 。 选 择 指令 sSEL, 可 根据 相关 的 GE 标志 
位 的 值 , 独 立地 从 源 寄存 器 Rn 或 者 Rm 中 选择 一 个 8 位 数据 ， 

SEL Rd, Rn, Rm 

Rd[31; 24] = GE(3] ? Rn[31 ; 24] : Rn[ 31. , 24] 
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Rd[23 , 16] = ©1277 Rn(23 , 156^ ; Rn[ 23 , 16] 
Rd 15 , 08] = GE[1j ? Rn[15 ; 08] ; Rm[15 : 08] 
Rd[07 : 00] = GE[0] ? En[O07 ; 00] , Fn[ 07 , 007 


使 用 这 些 指令 与 其 它 的 SIMD 操作 一 起 ,可 以 非常 有 效 地 实现 Viterbi 算法 的 核心 功 
能 。Viterbi 算法 是 在 通信 系统 中 被 广泛 使 用 的 用 于 符号 恢复 tsymbol recovery) 的 一 种 算 
法 ,本 来 是 一 个 统计 学 的 最 大 可 能 性 选择 算法 ,也 用 于 语音 和 手写 识别 引擎 等 领 咸 ， 一 般 尊 
LU S Viterbi 算法 的 核心 是 一 个 “加 一 比较 一 选择 CACS) "操作 ,实际 上 许多 DSP ШЖ 
都 特别 定义 了 ACS 指令 。ARMv6 使 用 并 行 的 (SIMD) 加 法 ,减法 (可 用 于 比较 ) 和 选择 指 
令 , 可 以 实现 一 个 特别 有 效 的 “加 一 比较 一 选择 ”操作 : 


ADDE Rol, Rsl, ВЫ ;path 1 = statel + branchi — (metric Bp) 
. ADDE Bp2, Rs2, ВЬ2 path 2 = 5tate2 + branch 2 (metric 83) 
05088 — Rt, Брі, Rp ;比较 Wettics 一 一 设置 SIMD 标志 


SEL Rd, Rp2, Вр1 ;选择 最 好 的 {最 小 的 )metric 


在 ARM1136] - S 上 ,内 核 在 4 个 通道 上 并 行 地 运行 ACS 操作 ,总共 只 需 4 个 周期 ;而 
在 ARMv5TE 指令 集 上 ,对 同样 的 序列 进行 编码 则 必须 溃 行 地 执行 每 一 个 操作 ,至 少 需要 
16 个 周期 。 由 此 可 见 ,对 于 8 位 的 metrics” 操作 ,“ 加 一 比较 一 选择 CACS)” 功 能 实现 在 
ARMI136] - S 上 要 快 4 售 。 


15.1.2 打包 指令 


ARMv6 体系 结构 包括 一 组 新 的 打包 指令 ,如 表 15. 5 所 列 , 使 用 一 对 取 自 不 同 源 寄存 
器 的 16 位 数据 来 构造 一 个 新 的 32 位 数据 包 。 第 2 个 操作 数 可 以 选择 性 地 进行 移 位 操作 。 
打包 指令 对 于 成 对 的 16 位 数值 特别 有 用 ,这样 就 可 以 使 用 前 面 所 描述 的 16 位 SIMD 处 理 、 
指令 ， 

# 15.5 打包 指令 
8 + 撕 述 


наан 
PKHTBi-«cond?) Rd, Rm, Rm {, ASR $ Rn 的 高 16 位 和 移 位 的 Rm 的 低 16 位 打 
# shift immi} 包 保存 到 目标 寄存 器 Rd 中 





РЕНВТ{<сопй>} Rd. Rn, Rm {，LSL 把 移 位 的 Rm 的 高 16 位 和 Rn Е 16 位 打 
4 shift imm) 也 悍 存 到 上 自 标 寄存 器 Rd 中 


* metric 一 一 度 基 ,是 已 定义 的 测量 方法 和 测量 尺 庚 [1SDO/IEC 14598—1], 128—534 BR POE 2 TRAZER) 


的 量化 者 示 。 这 里 指 实际 闪 收 数据 与 重 构 数 据 之 间 的 匹配 程度 。 一 Н 
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15.1.3 复数 运算 支持 


复数 运算 (complex arithmetic) 通 常 适用 于 通信 信号 处 理 ,特别 是 在 实现 一 些 变换 算法 
时 ,如 在 第 8 章 中 讲述 的 快速 傅 里 时 变换 (FFT)。 在 第 & 章 中 详细 分 析 的 许多 实现 细节 ,都 
和 使 用 ARMv4 或 ARME 指令 集 实现 复 数 乘法 运算 的 效率 有 关 。 
ARMv6 增加 了 新 的 乘法 指令 ,以 提高 复数 匀 法 的 速度 ,在 表 15.6 中 列 出 了 这 2 条 指 
4. WRIT TURIS X, 则 表示 这 些 指令 在 执行 乘法 之 前 ,首先 要 交换 源 操 作 数 寄存 器 
Rs 中 的 2 个 16 位 半 字 数据 。 
表 15,6 支持 16 位 复 孝 入 法 运算 的 指令 


R 4 ж ж 
SMUAIHX H «cond» ) Rd, Rm, Rs W 16 fu 5 frs SER ERUNT 


ANPUT eur 430 ean eur S í 


SMUSD(X] «сопа» Rd, Rm, Rs F 16 f E RES УЭЕ ТЕ 


[9815.1] Ra 和 Rb 中 分 别 包 含 16 位 系数 的 复数 ,其 实 部 和 虚 部 分 别 被 打包 存放 在 
寄存 器 的 低 半 部 分 和 高 半 部 分 。 

这 里 把 Ка 乘 以 Rb, 生 成 一 个 新 的 复数 Re。 假 设 这 些 16 位 的 值 都 县 采用 Q15 表示 的 
小 数 ,以 下 代码 是 针对 ARMVS 的 ， 

SMUSD Rt, Ra, Rb ; 实 部 * EA- x< 虚 部 ,结果 为 ШО 表示 


SMUADX Rc, Ra, Rb : 实 部 + 虚 部 + 虚 部 x 实 部 ,结业 为 Q30 表示 533 
QADD Rt, Rt, Rt ;转换 为 031 & 饱和 
QADD Re, Rc, Rc ;转换 为 W1 & PURI 
PKHTB Rc, Rc, Rt, ASR #16 ;把 结果 打包 
和 ARMv5TE 上 的 实现 比较 ， 
SMILBB — Rc, Ra, Rb GUE * 实 部 
SMULTT Rt, Ra, Rb + * ВЕ 
9608 Rt, Вс, Rt ; 实 部 * 详 部 - 虚 部 + BEAD. Hy 030 表示 
SMULTB Вс, Ra, Rb ER * 实 部 
SMLABT Ве, Rt, Rt ;+ 实 部 * 哑 部 ,结果 为 030 表示 
QADD Rt. Rt, Rt TI 31 E! 
QADD Rc, Rc, Re 转换 为 0391 & fH 
HOV Rc, Re, LSR #16 
MOV Rt, Rt, LSR #16 


ORR Rt, Rt, Rc, 151, #16 ;把 结果 打包 
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И ERSIERAT.ARMGE 需要 10 个 周期 ;而 ARMv6 只 需 5 个 局 期 ， 很 明显 ,对 于 
大 量 使 用 复数 送 算 的 算法 ,有 了 复数 乘法 运算 的 支持 ,可 效 得 2 倍 的 性 能 改进 ， 


15.1.4 ”饱和 指令 


饱和 运算 最 初 被 提出 是 在 ARMVSTE 体系 结构 的 刁 扩 展 中 ,并 在 产品 ARM966E 和 
ARM946E rp SES] A. Æ ARMv6 中 增强 了 对 饱和 运算 的 支持 ,增加 了 单独 的 .更 加 灵活 
的 .可 以 操作 32 位 字 和 16 位 半 字 的 饱和 指令 。 除 在 表 15. 7 中 列 出 的 这 些 指令 ,还 有 在 
15. 1. 1 小节 中 描述 的 新 的 愧 和 运算 SIMD BE, 


$157 人 志和 指令 
指 + A ox 
SSAT Rd, # < В1:Роѕшоп>, Rm, («Shiít»] ”任意 位 置 的 有 符号 32 位 他 和 。 可 点 LSL 和 ASR 移 位 
SSAT164<cond>) Rd, #<immed>, Rm 在 2 个 半 长 数据 同一 位置 的 双 16 riu m 
USAT Rd, # «BitPostion», Rm, («Shift 性 意 位 置 的 无 符号 3209. 可 以 LSL 81 ASR & fü 
USAT16i«condz] Rd, # «immedz^, Rm 在 2 个 半 长 数据 同一 位 置 的 无 符号 双 16 BHRURI 


ЖШ: 在 这 些 hte t dbi Ба SERERE AB Rm 有 选择 地 进行 算术 静 位 ,这 
样 就 可 以 在 周一 个 拷 信 中 进行 数值 范围 的 缩 让 。 


15.1.5 绝对 差 值 求 和 指 今 


这 2 条 指令 也 许 是 ARMv6 体系 结构 中 最 为 与 应 用 相关 的 一 一 USAD8 和 USADAS, 
它们 用 于 计算 8 位 数据 的 绝对 差 值 。 这 个 运算 在 活动 视频 (motion video) 压缩 算法 中 特别 
有 用 ,如 MPEG 或 H. 283, 和 包括 称 动 预测 算法 (motion estimation algorithms)。 其 使 用 许多 
绝对 差 值 求 和 (sum of absolute differences) 操 作 来 比较 各 个 块 的 数值 ,从 而 实现 对 移动 的 
计算 ( 见 图 15. 27。 表 15.8 列 出 了 这 2 个 指令 ， 

X 15.8. 绝对 差 值 求 和 


н + a zx 
USADS&(«Zcondz») Rd, Rm, Rs 绝对 差 值 求 和 





USADAS; «<cond>} Rd, Rm, Кє, Еп ЧА ИЕ 


为 了 比较 一 个 NX N 的 矩阵 在 (x, >) 的 图 像 ps 和 图 像 疡 ,进行 如 下 的 绝对 差 值 累 加 
求 和 运算 ， 








图 15.2 绝对 差 值 求 和 运算 
N-1 N-1 


ау) = У У | Аб, у) pi, j) | 


i-0 ј=0 


为 了 实现 这 个 运算 ,可 以 使 用 这 些 新 增 的 指令 ， 使 用 下 面 的 代码 序列 来 计算 4 个 像素 
的 绝对 差 值 的 和 : 


LDR pl, [plPtr], #4 МЕЖ р. 装载 4 个 像素 值 

LDR p2, [p2Ptr], #4 ;从 图 像 p, 装载 4 个 像素 值 

;装载 延迟 

;装载 延迟 

USADAB асс, pl, p2 ;累加 计算 绝对 差 什 

8 位 SIMD 就 有 4 倍 性 能 的 改善 ,再 加 上 USADAS 操作 包含 了 累加 求 和 操作 ,因此 与 


一 个 基于 ARMv5TE 的 实现 相 比 ,这 种 算法 在 性 能 上 有 了 很 大 程度 的 改善 。USAD8 操作 
也 经 常用 于 在 计算 出 一 个 累加 值 之 前 完成 进入 循环 的 设置 


15.1.6 双 16 位 乘法 指令 
虽然 ARMv5TE 已 经 对 ARM 引入 了 许多 DSP 特性 ,但 在 ARMv6 中 对 DSP 的 支持 更 


加 深入 。ARMv6 的 实现 (比如 ARM1136J) 拥 有 双 16х16 位 的 乘法 能 力 ,已 经 可 以 和 许多 
高 端的 专用 DSP 器 件 相 比 了 。 表 15.9 中 列 出 了 这 些 指 令 。 
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指 + # ië 

SMLATH Х}{< cond >} Rd, Rm, Rs, Rn XUB f$ 8-3 8 JII 32 位 累加 和 
SMLALD(XH C cond77]) RdLo, RdHi, Rm, Rs 3U5 fx gum G fÜ de 
SMLSDIX] Second} Rd, Rm, Rs, Ка XU TP SCA, 32 位 累加 和 中) 
SMLSLDIXM <cond™>} RdLo, RdHi, Rm, Rs TARTEREN 64 位 罚 加 和 中) 


下 面 举 例 说 明 使 用 SMLAD 作为 有 符号 数 的 双重 乘法 用 于 一 个 点 积 计算 的 内 循环 ， 
MOV 60, #0 ЕЕ 


LDMIA R21, [Rd, R5, R6, R7) (Ek o j 6 EN 
LDMIA ВЇ!, (RB, ВӘ, RÍO, R11) ;装载 8 个 16 位 系数 
SUBS НЗ, R3, #8 ;从 循环 计数 器 中 减 去 8 
SMLAD RO, R4, RB, RQ ЖОЖ ЖОП 

SMLAD RO, RS, R9, RO 

SMLAD RO, R6, R10, RO 

SKLAD RO, R7, R11, RO 

BGT ^ Loop + 如 果 还 有 系数 , 则 循环 


LERAREN 个 周期 内 完成 了 8 个 16X16 位 数据 项 的 乘 昧 加 ,而 且 没 有 使 用 任 
何 的 数据 分 块 (data - blocking) 技 术 。 如 果 求 点 积 的 一 组 操作 数 都 存放 在 寄存 器 中 , 则 其 性 
能 就 接近 于 真正 的 单 周 期 双 对 累加 操作 了 。 


15.1.7 Bu PSOE 


ARMY5TE 中 已 经 增加 了 很 多 算法 操作 ,这些 操 作 在 许多 控制 和 通信 应 用 的 DSP 算法 
中 被 广泛 使 用 ,而 且 通 常 使 用 Qi5 数据 格式 。 然 而 ,在 音频 处 理应 用 中 ,对 于 信号 质量 的 描 
述 ,16 位 数据 经 常会 不 够 。 在 这 种 情况 下 , 典型 的 解决 方法 就 是 使 用 32 位 数值 ， 为 此 ， 
ARMv6 增加 了 一 些 新 的 乘法 指令 ,用 于 操作 Q31 格式 的 数据 (在 第 8 E hiki T Q 
数据 格式 算法 )。 开 15. 10 中 列 出 了 这 毕 指 令 。 
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«15.10 BEF (most significant word) 38 3E 








B + Ж ж 
SMMLAIR)(«cond») Rd, Rm, Rs. Rn 44:8 32x 32 36 c ЖШ И 32 位 累加 到 32 ER 
mR Rn 


SMMLH Кі coni] Rd, Rm, Rs, Rn 有 符号 32x 32 Ж, Rn Zf 32 fr (Rn. << ЗМ 
积 ,并 获取 结果 的 高 32 位 


SMMULIR? cond?) Rd, Rm, Rs HESS 32x32 RE ЫЕ ДИЕ 32 位 


指令 中 可 选 的 {R} 表示 在 乘 高 32 位 之 前 , 先 在 64 位 的 乘积 上 辑 士 固定 的 常数 
0x80000000。 这 样 就 可 以 对 结果 进行 有 偏 的 会 人 (biased rounding), 


15.1.8 ”密码 算法 莱 法 扩展 


在 一 些 密 码 算法 中 ,非常 长 的 薪 法 运算 十 分 常见 。 为 了 最 大 化 对 其 处 理 吞 吐 量 ,在 现存 的 
32х32 RHEA UMULL 之 上 ,增加 了 一 个 新 的 下 十 32X32 一 64 3 SUIS EC 15.11), 


35.11 BRE (cryptographic multiplication] 


ANJOUAN eui JO einn eur st 





я 4 - 述 


KARR ЖЕ (RdHi; Ваго) = Rm + Rs 十 


UMAALi« cond RdLo, Вані, Rm, Rs 
RdHi 十 RdLo 
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下 面 是 一 个 使 用 这 种 新 指令 实现 的 非常 高 效 的 64X64 位 乘法 的 例子 ， 


;输入 ;第 1 个 64 {1Ж ОЕ (Вані, Ralo)rh 
;第 2 个 64 fr fec EE (Roni; RbLo) 中 


umull64 x 64 
UMULL RO, R2, Ralo, RbLo 
UMULL ВІ, R3, Rai, Rite 
UMAAL R1, R2, Ralo, RhHi 
UMAAL RZ, R3, Вані, RbHi 


输出 ;128 位 结果 在 (RB3, R2, R1, RO) ф 








Әріп) SiedcioleAeqd WLAS WAY 
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15.2 ARMv6 增加 的 系统 和 多 处 理 器 支持 


随 着 系统 变 得 越 来 越 复杂 ,它们 集中 了 多 个 处 理 器 和 处 理 引 擎 。 这 些 引擎 对 存储 器 的 
使 用 可 能 不 同 ,甚至 采用 不 同 的 字 节 排列 方式 (大 、 小 端 )。 为 了 支持 这 些 系统 中 的 相互 通 
信 ,ARMv6 增加 了 对 混合 大 小 端 系统 ,快速 异常 处 理 以 及 新 的 间 步 操作 的 支持 ， 


15.2.1 混合 大 小 端 支持 


传统 的 ARM 体系 结构 有 一 个 小 端 存储 器 系统 或 大 端 模式 ,可 以 在 复位 时 进行 切换 。 
大 端 模式 设置 存储 器 系统 按照 大 端 格 式 组 织 指令 和 数据 。 
正如 前 面 介绍 的 ,ARM 内 核 经 常 被 集成 到 复杂 的 混合 大 小 端 格式 的 片上 系统 中 ,这 些 
系统 在 软件 中 经 常 需要 同时 处 理 小 端 和 大 端 数据 。ARMv6 新 增 了 一 个 新 的 指令 ,以 设置 
一 段 代码 处 理 数据 的 字 节 排列 方式 ( 见 袁 15. 12), 另 外 还 增加 了 一 些 单独 的 处 理 指令 来 提 
高 在 混合 大 小 映 环 境 下 的 处 理 效 率 。 
9 15.12 ”设置 端 格式 操作 





B + # + 
SETEND <endian_specifier> 根据 参数 < endisn, specifier > # {ЖЛЕ К, ИКЕ B d s 





其 中 的 endian_specifier 可 以 是 BE( 设 置 为 大 端 格式 ), 也 可 以 是 LE COLE A | ii 
30. 典型 地 , 当 程 序 中 存在 相当 数量 的 模块 ,在 实现 中 需要 各 自 特定 的 字 节 排列 方式 时 ,可 
以 使 用 SETEND 来 设置 。 图 15. 3 显示 了 单独 的 字 节 处 理 指令 。 


15.22 异常 处 理 
操作 系统 通 沉 在 堆栈 中 保存 一 次 中 断 或 异常 的 返回 状态 。ARMv6 ИШТ d 15.13 中 


的 一 些 指令 ,以 提高 这 种 操作 的 效率 。 这 种 操作 在 中 上 断 / 洱 度 程 房 驱 动 系 统 中 ,出 现 频 度 是 
很 高 的 。 
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15.3 ARMv6 中 的 反 转 指令 
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Ж 15.13 异常 处 理 

# + B f 

SRS- addressing, mode, # mode {1} 保存 返回 状态 (lr 和 so {к ЖШН. ЕН ЙАТ. 
中 指出 堆栈 地 址 

RFE< addressing_mode>, Rn {!} 从 异常 返回 。 根据 Rn 指出 的 地 址 ,从 堆 杰 中 装载 pe 
和 和 враг 

CPPS<eftect> <iflags> j. Pame) 改变 处 理 器 状态 , 开 中 断 或 关中 断 

CPS # «mode 只 改变 处 理 器 状态 


15.2.3 多 处 理 同步 原 语 (Multiprocessing Synchronization 
Primitives) 


由 于 片上 系统 SoC 结构 的 复杂 化 ,ARM 内 核 现在 经 常 被 用 于 有 多 个 处 理 单元 的 设备 ， 
这 些 处 理 单元 竞争 使 用 系统 的 共享 资源 。 在 过 去 的 ARM 体系 结构 中 ,总 是 使 用 SWP 指令 
来 实现 信号 量 (semaphoeres) 在 这 种 环境 下 的 一 致 性 。 但 是 , 随 着 片上 系统 SoC 变 得 更 加 复 
杂 , 在 某 些 情况 下 ,SWP 指令 的 某 些 方面 导致 了 一 些 性 能 瓶颈 。 因 为 SWP 基本 上 是 一 个 
“阻塞 " 原 语 , 它 封锁 了 处 理 器 的 外 部 总 线 , 并 占用 其 大 部 分 带宽 ,仅仅 为 了 等 待 一 个 资源 补 
释放 。 在 这 种 意义 上 ,SWP 指令 通常 被 认为 是 “消极 的 ”一 任何 运算 都 不 能 继续 ,直至 资 
源 被 释放 ,SWP 操作 返回 。 

为 了 解决 这 个 问题 ,新 指令 LDREX 和 STREX (装载 和 存储 互 斥 的 ) 被 加 入 到 了 
ARMv6 结构 中 。 表 15. 14 中 列 出 的 这 些 指令 ,使 用 时 非常 简单 .直接 ,它们 是 通过 存储 器 
系统 内 的 一 个 系统 监控 器 来 实现 的 。LDREX 从 存储 器 中 装载 一 个 值 到 寄存 器 ,可 以 乐观 
地 认为 在 处 理 这 个 数据 时 ,不 会 有 任何 其 它 因素 会 改变 该 值 。STREX 存储 一 个 值 到 存储 
器 ,并 且 返 回 一 个 指示 值 ,表示 在 最 初 的 LOREX 操作 和 这 个 写 操作 之 间 , 存 情 器 中 的 该 值 
是 否 被 修改 过 。 采用 这 种 方法 ,这 些 操作 是 “积极 的 ”一 一 可 以 继续 处 理 用 LDREX 加 载 的 
数据 ,即使 一 些 外 部 设备 可 能 同时 在 修改 这 个 值 ， 只 有 真正 发 生 了 一 个 外 部 更 新 ,该 数 信 才 
SHERMER. 
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表 15.14 装载 和 存储 互 斥 操作 








指 + E d 
LOREX eond) Rd, [Rn] № Rn Fir +s BJ HE dup 30380 Ma JÉ: H ГЕ Ж ОКЕ ЖЕ 
STREX|«condz2) Rd, Km, [Rn] A18 5j Ra 所 示 的 号 址 , 设 怀 志 RdCÉ iu) RE Rd 二 0) 


这 种 系统 的 最 大 特点 就 在 于 ,处 理 器 小 用 再 占用 系统 总 线 来 等 待 一 个 将 释放 的 信号 量 ， 
因此 可 以 让 出 大 部 分 的 系统 总 线 带 宽 , 供 其 它 处 理 或 处 理 器 使 用 。 


15.3 ARMv6 的 实现 


OInyoeinuowv SUL dO әд eu Gİ 


ARM 在 2002 % 12 月 完成 了 ARM1136] 的 开发 ,而 且 在 编写 本 书 同时 ,使 用 这 个 内 核 
的 产品 也 正在 设计 中 。 到 目前 为 止 ,ARM1136J 的 流水 线 在 各 种 ARM 实现 中 是 最 复杂 的 。 
如 图 15.4 所 示 , 它 有 一 条 8 级 流水 线 , 并 带 有 独立 .并 行 的 数据 装载 /存储 流水 线 和 乘法 / 累 
加 流水 线 。 

并 行 的 数据 装载 /存储 单元 (LSU) 具 有 舌 党 下 的 俞 由 (hit-under-miss) 能 力 。 它 多 许 在 
较 慢 的 存 情 器 系统 正在 完成 装载 或 存储 操作 时 ,装载 和 存储 操作 可 以 继续 从 流水 线 被 发 身 
(be issued) 并 执行 。 通 过 把 执行 流水 线 和 数据 装载 /存储 操作 分 离 ,内核 可 以 获得 可 观 的 额 
外 性 能 ,因为 存储 器 系统 通常 要 比 内 核 的 速度 慢 很 多 。 笑 花 下 其 命中 把 这 种 分 离 进 一 步 扩 
EAT LI ~-L2( 一 级 ~ 二 级 ) 存 储 器 接口 ,使 得 当 一 个 L1 cache 访问 失效 ,12 传输 被 执行 时 ， 
HEH LI 命中 可 继续 进行 。 | 

在 徽 结 构 (microarchitecturey 中 的 另 一 个 大 的 改变 就 是 ,从 虚拟 标记 cache 变 为 物理 标 
id cache, ARM 传统 上 使 用 虚拟 标记 的 cache, 即 ММО 位 于 cache 和 外 部 的 二 级 存 悄 器 系 
RADZE. E ARMv8 中 ,这 点 改变 了 ,MMU 位 于 内 核 和 一 级 存储 器 (L1)cache 之 间 ， 
使 得 所 有 的 cache 访问 都 使 用 物理 地 址 (已 经 转换 过 的 ) 。 这 种 改进 带 来 的 大 的 好 处 之 一 就 
是 , 当 ARM 运行 大 型 操作 系统 时 ,大 大 减少 了 在 上 下 文 切换 时 的 cache 刷新 ， 另 外 ,cache 
刷新 直接 意 昧 着 更 多 的 外 存 访 问 , 所 以 剧 新 的 闫 少 同样 也 会 降低 最 终 系统 的 功 耗 。 在 某 些 
情况 下 ,这 个 体系 结构 上 的 改变 可 望 带 来 20% 以 上 的 性 能 改善 。 
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15.4 ARMv6 之 后 的 未 来 技术 





在 2003 年 ,ARM 发 布 了 一 些 未 来 技术 预告 ,其 中 包括 TrustZone fll Thumb - 2. 这 些 
技术 都 是 非常 新 的 ,到 写本 书 为 止 ,它们 正在 被 应 用 于 一 些 新 的 徽 处 理 器 内 核 中 。 下 面 将 简 
要 介绍 这 些 新 技术 。 


15.4.1 TrustZone 


TrustZone 是 一 种 体系 结构 的 扩展 ,以 传输 的 安全 性 为 目标 ,可 能 会 用 于 手机 等 电子 消 
费 类 产品 。 将 来 或 许 会 用 于 在 线 传输 ,实现 下 载 音 乐 或 视频 等 。2003 年 10 月 ,ARM 在 发 
布 ARM1176JZ-S 时 ,第 一 次 介绍 了 这 种 技术 。 

其 基本 思想 是 ,现在 的 操作 系统 十 分 复杂 (即使 是 在 苦 人 式 设备 上 ) ,以 至 于 在 软件 中 很 
难 验证 安全 性 和 正确 性 。ARM 解决 这 个 问题 的 办 法 是 ,添加 新 的 操作 “状态 "到 系统 结构 
中 ,那里 只 有 一 个 小 的 可 验证 的 软件 内 核 在 运行 , 它 将 为 更 大 的 操作 系统 提供 服务 。 这 个 微 


处 理 器 内 核 通 过 在 总 线 接口 上 的 一 些 新 的 输出 信号 ,可 以 控制 系统 外 设 只 有 在 安全 的 " 状 


态 ” 下 才 有 效 。 系 统 状态 如 图 15.5 所 示 。 
TrustZone 在 一 些 需要 实现 内 容 下 载 的 设备 中 特别 有 用 ,比如 手机 以 及 其 它 带 有 网 络 
连接 的 便携 式 设备 。 在 编写 本 书 时 ,这 种 结构 的 详细 内 容 还 没有 公开 ， 


15.4.2 Thumb-2 


Thumb -2 是 一 种 体系 结 枸 的 扩展 ,是 为 了 在 高 的 代码 密度 上 来 改善 性 能 。 它 允许 混 
合 32 位 的 类 ARM (ARM-like) # + ЖП 16 位 Thumb 指令 。 这 种 组 合 使 得 既 可 以 获得 
Thumb 指令 的 代码 密度 优势 ,又 具有 32 位 指令 访问 的 性 能 优势 。 

Thumb- 2 是 在 2003 年 10 月 发 布 的 ,将 在 ARM1156T2 - S 9. dE S B 
时 ,这 种 结构 的 详细 内 容 还 没有 公开 。 
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Й А Richard York, 一 个 CPU 系统 安全 的 新 基础 :ARM 体系 结构 的 安全 性 扩展 ,2003 
图 15.5 采用 TrustZone 技术 改进 的 安全 结构 
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15.5 总 结 


ARM 的 体系 结构 不 是 一 直 不 变 的 ,而 是 为 了 满足 当今 的 电子 消费 产品 设备 的 应 用 需 
要 在 不 断 发 展 和 改进 的 。 尽 管 ARMVSTE 体系 结构 通过 增加 DSP 支持 ,获得 了 很 大 的 成 
功 ,而 ARMv6 体系 结构 不 但 进一步 扩充 了 对 DSP 的 支持 ,同时 还 增加 了 对 大 型 多 处 理 器 
系统 的 支持 。 表 15. 15 列 出 了 这 些 新 的 技术 及 其 所 对 应 的 不 同 处 理 器 内 核 。 
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415.5 最 新 发 布 的 内 核 





LS E IE xd R + 
ARM1136J -5 ARMw5] 
ARMI1568T2- 5 ARMxt-d- Thumb - 2 
ARMII76)Z- 8 ARMwv8] + TrustZone 


ARM 仍然 专注 于 一 个 关键 的 因素 一 一 代码 密度 ~- 并且 在 最 近 发 布 了 在 普通 Thumb 
结构 上 的 Thumb - 2 扩展 .另外 ,新 的 热点 一 一 关于 安全 性 的 TrustZone 技术 也 使 得 
ARM 在 该 领域 中 处 于 领先 地 位 。 

我 们 期 待 着 未 来 ARM 会 有 更 多 的 创新 1 
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附录 А 





ARM 和 Thumb 汇编 指令 


e ¿6 Ñ š $ W Ë 

e id ü 

e 33014 4 Š P| k АКМ 4 Thumb 指令 
© ARM ic t & + 

è GNU i ib dh i$ + 4 


A ARM 和 Thumb 汇编 指令 





本 附录 列 出 了 ARM 和 Thumb 指令 ,并 包 合 刚刚 发 布 的 ARM 体系 结构 ARM 指 
4. 为 了 便于 参考 ,将 指令 以 字母 为 序 进 行 排 列 。 在 和 .4 ALS 两 节 给 出 了 ARM fi 
GNU f iL Azt armasm 和 gas 指令 快速 查找 索引 。 

本 附录 用 于 为 实际 编程 提供 指导 ,包括 订 . 编 代码 的 编写 和 对 反 汇 编 的 输出 进行 解释 。 
本 附录 的 编写 目的 并 不 是 提供 ARM 全 面体 系 结构 的 参考 ,所 以 没有 列 出 每 一 条 指令 位 映 
射 编码 和 操作 行为 的 所 有 细节 ， 关 于 这 方面 的 详细 内 容 , 可 以 参考 由 David Seal 编写 ,Ad- 
dison Wesley I RR ААМ Architecture Reference Manual 。 在 附录 已 中 将 给 出 对 ARM 和 
Thumb 指令 设置 编码 的 摘要 ， 


А.1 如何 使 用 这 篇 附录 


在 本 附录 中 介绍 每 条 指令 时 ,都 会 列举 所 有 可 用 的 指令 格式 。 例 如 ,对 于 指令 ADD 的 
介绍 ,将 会 有 ， 
ADD cond (S) Rd, Rn, # «rotated immed’> ARMv1 


«соп #l< rotated, immed > EE А. 2 节 中 将 会 介绍 的 2 个 标准 域 ，Rd 和 Rn 表示 
ARM 寄存 器 。 这 条 指令 只 有 在 条 件 <<cond>> 满 足 时 ,才能 被 执行 该 附录 会 分 别 描述 每 
条 指令 的 具体 执行 情况 ， 

{S} 表 示 可 选 的 指令 后 缀 。 最 右边 的 一 列 ARM] 表示 可 以 使 用 该 指令 的 最 早 版 本 。 
表 A.1 列 出 了 它 可 能 的 版 本 。 





ЖА 指令 类 型 
р 
类 ж 4 ox 
-一 一 — LLL 
ARMvX 32 位 ARM 指令 第 一 次 出 现在 ARM 体系 中 的 第 X 版 本 
THUMBX 16 {т Thumb 指令 第 一 次 出 现在 Thumb 体系 中 的 第 X 版 本 
MACRO i55 


一 ——— 
ЖЖ: ARM 和 Thumb 6) Ж f Ж ҖЕ Ж. ДЕЛ REESE EXER. t THUMB] 使 用 在 ARMAT 
ХЕ ё Ф,ТНОМВу2 使 用 在 ARMVST 43€ S t, THUMBv3 使 用 在 ARMw6 AREP, 


每 一 条 指令 定义 后 都 有 一 个 注释 车 , 用 于 措 述 使 用 该 指令 的 限制 条 件 。 如 果 使 用 限制 
语句 Rd must not be pc”, 则 意味 着 该 指令 的 功能 只 有 在 满足 这 个 条 件 后 才能 实现 。 如 时 
条 件 不 满足 , 则 这 条 指令 执行 后 的 结果 可 能 是 无 法 预测 的 ,或 者 是 可 以 预测 的 非 正确 结果 
(对 此 本 附录 不 做 详细 的 描述 )。 编 程 时 不 应 超越 这 个 条 件 限制 ， 
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在 本 附录 中 将 使 用 如 下 的 语法 和 缩写 。 
А.2.1 可 选 表达 式 


ө !<-expr>> 上 是 一 个 可 选 表达 式 。 例 如 LDR{B} 表 示 该 指令 可 以 是 LDR, 也 可 以 是 
LDRB, 

ө (exprl»[«expr2»|*[«exprN 2) 至 少 包 含 一 个 分 隔 符 "1”, 它 是 一 系列 的 
表达 式 。 这 一 系列 的 表达 式 中 至 少 出 现 其 中 的 一 条 ,例如 LDR(BI HIE LDRB 或 
LDRH 的 缩写 , 它 不 包含 LDR。 如 果 想 包含 LDR, 则 应 该 写 为 :LDR{|B|H}。 


А.2.2 SB 


e Rd, Rn, Rm, Rs, RdHi, RdLo — 107—115 任 一 ARM 寄存 器 。 

ө LdLnLm,Ls 10~17 的 任意 一 个 低 编 号 的 ARM 寄存 器 。 

e Hd, Hn, Hm, Hs 87115 的 任意 一 个 高 编号 的 ARM AN Aa 
e Cd,Cn,Cm cec0~el5 的 任意 一 个 协 处 理 寡 存 器 。 

e зр, рс BÓ E 113.114 A ris. 

e Rnía] 寄存 器 Rara já, ИЖ Rala]= (Rn >> a)&]l, 

e Rnía;b] Rn'hfra-bdt(G-d1—D B BOIS DN, 

e RdHi,RdLo | —" 64 位 数 ,RdHi EB 32 位 ,RdLo 是 低 32 fü. 


A.2.3 立即 数 


e —immedN2> 一 个 六 位 的 无 符号 立即 数 。 例 如 所 immed8 盖 代表 0 一 255 的 任 一 整 
HA. <іттей52> * 4 可 以 表示 数列 0,4,8,16,*… ,124 中 的 任 一 数 。 

€ <adderssN> 一 个 偏 称 量 ,可 以 是 地 址 或 标注 。 这 个 地 址 必须 满足 pe — 2" Sad- 
dress«gc--2*, Kp pe 表示 一 个 地 址 ,在 ARM 状态 下 等 于 当前 指令 地 址 加 8; 在 
Thumb 状态 下 等 于 当前 指令 地 址 加 4。 妈 果 是 一 条 ARM 指令 , 则 该 地 址 必须 为 4 
字 节 对 齐 的 ;如 果 蚌 一 条 Thumb 指令 , 则 该 地 址 必须 为 2 字 节 对 齐 的 。 

e —A-B> A~B 之 间 的 任意 整 型 数 ， 

€ <гогагей іттей>2 一 个 32 位 立即 数 , 它 可 以 通过 一 个 8 位 无 符号 数 作 左 ( 或 右 ) 
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偶数 位 循环 移 位 而 得 到 。 也 就 是 说 :<:rotated_jimmed2> = —immed8> КОК (2 * 
—<—immed4>), ЁЛ Oxff,0x104,0xe0000005,0x0bc00000 者 可 以 是 一 个 于 rotated _ 
immed> Ж, Hi 0х101 #1 0x102 都 椒 是 。 当 使 用 一 个 循环 立即 数 时 ,过 shifter_C > 
按照 表 A 3( 将 在 第 A, 2. 5 小 节 中 讨论 ) 求 设置 。-- 个 非 零 的 循环 移 位 可 能 导致 进 
位 标志 的 变化 。 所 以 可 以 通过 三 immed8 守 和 2x 二 immed4 汪 明确 地 指定 循环 
情况 。 


А.2.4 条件 和 标志 


€ <cond> 任意 的 标准 ARM 条 件 码 。 表 A.2 列 出 了 一 cond>> 可 能 的 值 。 

€ —SignedOverflow2> 一 个 标志 ,表示 在 算术 操作 送 算 中 产生 了 一 个 有 符号 数 的 淮 
出 。 例 如 ,Ox7fftfH 十 1 = 0x80000000 就 产生 了 一 个 有 符号 数 滋 出 ,因为 2 个 32 位 
有 符号 正 数 相 加 的 结果 变 成 了 一 个 32 位 的 负数 。 在 cpsr 中 ,用 V 标志 位 记录 有 符 
эн. | 

Ф < UnsignedOverflow2> 一 个 标志 ,表示 在 算术 操作 运算 中 产生 了 一 个 无 符号 数 的 
溢出 。 例 如 ,0xfffffff 十 ] = 0 就 产生 了 一 个 32 位 无 符号 数 洲 让。 在 cpsr H, HC 
标志 位 记录 无 符号 数 溢出 ， 

€ < NoUnsignedOverflow > 等 于 1 一 一 UnsignedOverflow>> ， 

Ф Zero 一 个 标志 ,表示 一 个 算术 运算 或 者 逻辑 运算 的 结果 为 0。 在 cpsr 中 ,用 2 
标 喜 位 来 标志 这 种 情况 。 

e <Negative> 一 个 标志 ,表示 一 个 算术 运算 或 者 逻辑 运算 结果 为 负 ， 世 就 是 说 ， 
所 Negative>> 是 结果 的 位 31。 在 cpsr 中 ,用 N 标志 位 来 记录 这 种 情况 ， 

ЖА.2 ARM £B R IE 





SLIOROruISui IƏlqLLISSSV QUNYL puo Nay v É 


549 


ond ЖН epsr 状态 
ЧАШ 始终 执行 TRUE 
EQ 相等 (最 后 结果 为 0) #= = | 
МЕ 不 等 (最 后 结果 非 0) Z--Q 
(CSI HS). 进位 位 置 位 ,天 和 兰 号 大 于 或 等 于 ! 角 于 比较 后 面 ) С= =] 
fCC|LO) 进位 位 清 零 , 光 符 号 小 于 (用 干 比较 后 面 ) C==0 
MI GRIS ARR HO N==1 
PL 加 (最 后 结果 为 正 或 0 М= = 
VS Vus o ARE ЛЕД ЖЕҢ) Voc] 


VC V 标志 位 消 夫 (结果 没 产 生 有 符号 流出 ) V==0 
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FARA? 
«соп AAR A $ Ë cpsr Ж Ж 
Ні 天 符号 大 于 { 用 于 比较 上 后面) C==1&ËZ— =Ü 
15 无 符号 小 于 或 等 于 (用 于 出 较 后 面 ) С==0|7=—1 
GE 有 符号 大 于 或 等 于 N--V 
LT ARIF Ni= v 
GT 有 符号 大 于 N==V&ËZ— =0 
LE 有 符 续 小 于 或 等 于 М!=у||2==1 
NV 从 不 执行 (只 用 于 АКМА RI ARMv2) REE JHI FALSE 





А.2.5 移 位 操作 


€ imm shift 一 个 通过 立即 数 指定 的 移 位 位 数 。 可 能 的 移 位 方式 有 :LSL $0 
—31>, LSR #<1—32:>,А5® £«1—322,ROR #<1—312>8 RRX, X A.3 
给 出 了 每 一 个 移 位 的 具体 操作 。 

€ «reg shift 一 个 通过 寄存 器 指定 的 移 位 位 数 。 可 能 的 移 位 方式 有 :LSL Ез, 
LSR Rs, ASR Rs Ж] ROR Rs, Rs 一 定 不 能 是 pc。Rs 的 最 低 8 位 就 是 表 А.З 中 所 
指 的 移 位 值 上 。Rs[31:8] 是 被 忽略 的 。 

6 shift «іт shift» Ф < reg shift», 

@ shifted Кт> Rm 为 按照 指定 的 移 位 操作 移 位 后 的 信 。 见 表 ALS, 

e shifter C> 移 位 输出 后 的 进位 位 的 值 。 见 表 A. 3, 

ЖАЗ 不 同 的 移 位 类 型 的 移 位 方法 





Shift ЕЛ. e shifted_Rm> «shifter, C 
LSL k k = 0 Rm COE А cpsr) 
LSi. k 31 Rm << k Rm[32— k] 
LSL k &—32 0 Rm[0] 

LSI- k 42233 0 0 

LSR К 点 二 0 Rm C 

LSR k laks (unsigned) Rm >> k Rm[k--1) 
LSR k &-32 0 Rm[31] 

LSR k k33 0 0 

ASR k &=0 Вт | С 


OC 











Shift 

АЗЕ К 
ASR К 
ROR k 
ROR k 
КОК k 
RRX 








Ж А.З 

下 的 范围 shifted Rm «shifter. С» 
тека (signed) Rm >> k Б Клук 1] iu 
ERAI : Rm[31] Rm[31] 
k=0 Rm C 
leni (Cunsigned) Rm >> kl (Rm ec (32- ky) Rm[k—1] 
32 Rm ROR (k&.31) Rm (k— 128.31) 

(C << 3D | CGOinsigned) Rm >> 1 Rmf0] 


A.3 按 字母 顺序 列 出 ARM 和 Thumb 指 今 


指令 将 按 宇 母 顺 座 绽 出 ;但 是 如 果 同 一 个 操作 可 以 是 有 符号 和 无 符号 2 种 变量 ,那么 这 
个 主 条 目 将 以 有 符号 变量 为 序 来 排列 。 





ADC 


带 进位 位 的 32 位 数 加 法 指令 

D ADC<cond>{S} Rd, Rn, #-<rotated_immed> ARMvl 

D ADC« cond 15) Rd, Rn. Rm {, <shifr>) ARMvi 

@ АРС Ld,Lm THUMRvI 
Action 对 cpsr 的 影响 


Ф Rd—Rn + «rotated immed +C 如果 带 后 绥 S, M S SW cpsr 
© Rd 一 Rn 十 «shifted. Rm?» + C mx d S $, 则 更 新 cpsr 
© Ld=Ld + Lm + C 更 新 ( 见 下 面 的 注释 ) 


注释 ， 

e 如 果 操 作 要 更 新 csr, ЖН Rd £ ре, M) N = < Negative >, Z = 
«Zero?» ,C- «UnsignedOverflowZ» , V = < SignedOverflow > , 

© ШЖ Rd 是 pc, 则 这 条 指令 的 执行 会 改变 pe 值 ,下 一 条 指令 将 跳 转 到 新 的 
ре 值 所 指向 的 地 址 处 。 如果 操作 要 更 新 cpsr, 则 处 理 器 模式 一 定 要 有 一 
个 spsr, 这 样 cpsr 的 值 设置 成 рэг 的 值 。 

€ 如 果 Rn 或 者 Rm 是 pc, 则 它 所 用 的 值 是 当前 指令 的 地 址 加 上 8 5635, 


例如 ， 
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ADDS rü, rÜ, r2 
АРС rl, rl, r3 
ADCS rü, rO, rü 





ADD 32 位 数 加 法 指令 


D ADD« cond 5 
@ ADD«condS 
D ADD 
(b ADD 
© ADD 
(0 ADD 
@ ADD 
ADD 
@ ADD 
@ ADD 
@ ADD 
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;两 64 位 数 的 低 32 位 相 加 
;两 64 位 数 的 高 32 世相 各 
i rO Tc Re edi A df RLE) 


Rd. Rn. # «rotated иттей» ARMvI 

Rd, Rn, Rm {, «shift } ARMvi 

Ld, Ln, # «immed37 THUMBv1 
Ld, # «immed8— THUMRvi 
Ld, Ln, Lm THUMBvI 
Hd, Lm THUMB 
Ld, Hm THUMBv1 
Hd, Hm ТНИМВу1 
Ld, pe, # «immed87» x 4 THUMB»i 
Ld. sp, # «immed87» « 4 THUMREv1 
sp. # «иттей? > * 4 THUMRBvI 

对 cpsr 的 影响 


(D Rd = Rn + <rotated_immed> 
D Rd = Rn + «shifted Rm 
($9 Ld = Ln + —<immed3> 


(D Ld = Ld + <immed8> 


© Ld = Ln + Lm 
( На= На + Lm 
D Ld = Ld + Hm 
@ На= На + Hm 


@ Ld = pc + 4# —immed8> 
WD Ld = sp + 4* <immed8> 
O sp = sp + 4» cimmed? 


注释 ; 


ЖЖ З, ШЕ š cpsr 
ПЖ н S, ДВ Sr cpsr 
更 新 ( 见 下 面 的 注释 ) 

更 新 ( 蜗 下 面 的 注释 ) 

更 新 ( 见 下 面 的 注释 ) 

受 保护 

受 保护 

RP 

Xf 

受 保护 

受 保护 


e 如 果 操 作 要 更 新 cpsr, ЁН Rd 不 是 ре, HJ N = < Negative >, Z = 
«Zero» ,C— « UnsignedOverflow» , V =< SignedOverflow» , 

* 如 果 Rd 或 者 Hd 是 pc, 则 这 条 指令 的 执行 会 改变 pc 值 ,下 一 条 指令 将 跳 
转 到 新 的 pc 值 所 指向 的 地 址 处 。 如 果 操 作 要 更 新 cpsr, 则 处 理 嚣 模式 一 
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定 要 有 一 个 spsr1 这 样 cpsr 的 值 设 置 成 spstr WHR. q 

e 如 果 Rn 或 者 Rm 是 pc, 则 它 所 用 的 值 是 当前 指令 的 地 址 加 上 8 字 节 ，。 = 
e 如 果 Hd 或 者 Hm 是 pc, 旭 它 所 用 的 值 是 当前 指令 的 地 址 加 上 4 FW. < 
5 

PAN: A. 
эч 

ADD rO, rl, #4 0 rl +4 z 
ADDS rO, r2, r2 {10 = r2 + r2 HE 3 

ADD rü, тб, rü, LSL JH 1 ;rÜ = 3 x rÜ М 

ADD pc, ре, 10, LSL #2 Юл го + 1 条 指令 PA 

ADD rÜ. rl, r2, ROR r3 }їб = rl t((r2 >> r3)|(r2 << (32 - r3)) 3 
ADDS рс, lr ,并 4 ;指令 跳 到 lr + 4 Jb EAE cpsr Ü 

(D 

ADR 小 范围 地 址 读 取 伪 指令 а 
ADRIL) <сопі> Rd, —adderss> МАСВО al 
这 不 是 一 条 ARM 指令 ,而 是 一 条 宏 汇编 指令 。 它 将 基于 pe Hiit 


读 取 到 寄存 器 Rd 中 。ADR 伪 指 令 被 编译 器 替换 成 一 条 合适 的 ARM 或 者 
Thumb 指令 。ADRL 伪 指 令 被 编译 器 替换 成 2 条 ARM 指令 ,所 以 它 可 以 
H; ADR 读 取 到 更 大 范围 的 地 址 。 如 果 编 译 器 不 能 产生 一 个 指令 序列 来 达到 
这 个 地 址 ,那么 它 就 会 产生 一 个 错误 。 

下 面 的 例子 演示 了 如 何 调用 r9 所 指向 的 函数 。 这 里 用 ADR 来 设置 I 
为 返回 地 址 。 这 样 , 它 将 汇编 成 ADD ir, pe, #4, HUE рс 被 看 作 当前 指令 
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地 址 加 8， 
ADR lr, return adderss ; 设 恬 返回 地 址 
MOV — r0. #0 ;设置 一 个 函数 参数 
BX r9 :调用 这 个 函数 
return adderss ;恢复 


-一 M U 
AND 32 位 数 兆 辑 按 位 “与 ?运算 指令 


(D AND« cond (S) Rd, Rn, # «rotated immed»  ARMvl 


(D AND« cond (8) Rd, Rn, Rm í, «shift? ARMNvI 
© AND Ld, Lm THUMBVI] 
Áction 对 cpsr 的 影响 


(D Rd = Rn & «rotated irnmed> WRH EA S, 则 更 新 cpsr 
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Q Rd = Rn & «shifted Rm ШЕТ S; 则 鼎新 epsr 
DLd= Ld & Lm 更 新 ( 见 下 面 的 注释 ) 


CR. 

e 如 时 操作 要 更 新 cpst, E H Rd Ж E pe, M N = < Negative >, Z = 
Zero C-— «shift C OR A. 3), V 是 受 保 护 的 。 

e 如 果 Rd 是 pc, 则 这 条 指令 的 执行 会 改变 pc 值 ,下 一 条 指令 将 跳 转 到 新 的 
рс 值 所 指向 的 地 址 处 。 刀 果 操 作 要 更 新 epsr, 则 处 理 器 模式 一 定 要 有 一 
个 spsr, 这 样 cpsr 的 值 设 置 成 spsr 的 值 ， 

@ ШЖ Rn 或 者 Rm 是 pc, 出 它 所 用 的 值 是 当前 指令 的 地 址 加 上 8 字 节 。 


例如 ， 





AND го, r0, # OxFF E d E 8 {у 
ANDS ro, roO, #1 << 31 提取 符号 位 
ASR Thumb 的 算术 右 移 指令 ( 见 ARM 的 MOV 指令 介绍 ) 
(D ASE Ld, Lm, #—immed5> THUMBvI 
D ASR Ld, Ls THUMBv1 
Action 对 cpsr 的 影响 
(D Ld = Lm ASR tt «immed5 更 新 ( 见 注 释 ) 
D Ld = Ld ASR Ls ?;0] 更 新 
注释 ， 
cpsr 更 新 为 :N = <Negative2>,Z = «Zero,C = 之 shift_C>( 风 表 А, 3). 
В 跳 转 指令 
(D B< сопа» «adderss257» ARMvI 
(2 B< сопа» <adderss8> THUMRBv1 
2 В « adderssilo THUMBv1 


跳 转 到 指定 的 地 址 或 标号 。 这 个 地 址 是 一 个 偏 移 量 。 


例如 ， 


B label A; SE tt Rh ЕШ Label 标 导 处 
BGT loop + 有 条 件 地 继续 一 个 循环 


CC 一 
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BIC НЗ САМО NOT) 指 令 > 
(D ВІС< солі (S) Rd, Rn, # «rotated immed> ARMNvI 2 
D BIC<cond> (S) Rd, Rn, Rm 1, cshift»! ARMvI б 
@ BIC Ld, Lm THUMBvl a 
Action 对 cpsr 的 影响 = 
(D Rd = Rn & — rotated immed t RR S 4 $, 则 更 新 cpsr 3 
© Rd = Rn & — shifted Rm MEEA $, 刚 更 新 cpsr » 
(9 Ld = Ld $&—Lm 更 新 ( 见 注释 ) @ 
注释 : B 
€ 如 果 操 作 更 新 了 сре H Rd 不 是 pe, 那么 N = <Negative> , Z = «Zero, @ 

С = «shifter C> (AE A. 3). V 是 受 杏 护 的 。 5 
e ШАКА 是 pe, 则 这 条 指令 的 执行 会 改变 pe 值 , 下 一 条 指令 将 跳 转 到 新 的 | 全 
pc 值 所 指向 的 地 址 处 。 如 果 操 作 要 更 新 cpsr, 则 处 理 器 模式 一 定 要 有 一 个 o 
spsr.3X FÉ cpsr 的 值 设 置 成 spsr 的 值 ， 3 


o 如 果 Rn 或 者 Rm 是 pc, 则 它 所 用 的 值 是 当前 指令 的 地 址 加 上 8 =, 


例如 : 


BIC т0,т0, #1 << 22 对 250 的 第 22 位 清 堆 
—— 一 -一 一 LL. 
BKPT 断 点 指令 


(D BKPT —immed16> ARMv5 
D BKPT «immed87 THUMB»v2 


除非 开发 调试 工具 硬件 的 屏 项 MARGE rE ОЕ ЯЕ 
中 断 。ARM 将 会 忽略 这 个 立即 数 。 但 是 这 个 立即 数 能 够 用 来 记录 类 似 于 断 
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点 号 的 调试 信息 。 
———————Ó—— MÀ _ 
BL 带 链 接 的 跳 转 指令 ( 子 程序 调用 ) 

(D BL«zcond < adderss25> ARMv! 

(2 BL «adderss227 THUMBvI 

Action 对 cpsr 的 影响 


(D ir = ret + Оре = <address25> 无 影响 
D lr = ret + 1;рс = «address227» 无 影响 
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ER. 
这 些 指 令 将 设置 寄存 器 tr 的 值 为 下 一 条 指令 的 地 址 vet 加 二 当前 cpsr 的 了 
标志 位 的 值 。 因 此 可 以 在 子 程序 返回 时 ,通过 使 用 BX lr 指令 来 恢复 执行 地 
址 和 ARM 或 者 Thumb 的 状态 。 
例如 : 

BL subroutine ;调用 于 程序 (通过 MOV pc, 1r 返回 ) 

BINS overflow ing m B , 则 调用 子 程序 overflow 


-人 


BLX 


带 状态 切换 和 链接 的 跳 转 指令 (可 能 有 状态 切换 的 子 程序 调用 ) 


(D BLX «Cadderss2577 ARMv5 

© В.Х < сопа Rm ARMv5 

9 BLX «Cadderss22 > THUMPB*2 
D BLX Rm THUMB*2 
Action 对 cpsr 的 影响 


(D Ir = ret + 0;рс = «address25^ T=] (切换 为 Thumb 状态 ) . 
Q lr = ret + 0;pe = Rm & Ох е T = Rm &1 

(3 lr = ret + 1;ре = «address222 Т=0 Gf 3| ARM 状态 ) 

( lr = ret + 1;ре = Rm & Oxfffffffe T = Rm ë] 


注释 : 

e 这 些 指 令 将 设置 寄存 器 Ir 的 值 为 下 一 条 指令 的 地 址 ret 加 上 当前 cpsr 的 
工 标志 位 的 值 。 因 此 可 以 在 子 程序 返回 时 ,通过 使 用 BX lr 指令 来 恢复 执 
行 地 址 和 ARM 或 者 Thumb 的 状态 。 

@ Rm 一 定 不 能 为 pc。 

€ Rm & 3 一 定 不 能 为 2, 因 为 这 将 跳 转 到 一 个 没有 对 齐 的 ARM 指令 。 


Иш: 


BLX thumb code  ,fr ARM 状态 下 调用 一 个 Thunb 于 程序 
BLX r0 ;调用 一 个 由 r0 Prae i TURF 
An ro 是 偶数 . 则 为 ane 指令 ;如果 是 奇数 , 则 为 Thumb 指令 





A ARM XI] Thumb 汇编 指令 





BX 带 状态 切换 的 跳 转 指令 (可 能 导致 状态 切换 的 跳 转 ) > 
BXI 
(D BX«cond Rm ARMv4 T 5 

四 ВХ Rm тнимв |Ì 

(3 ВХ cond Rm ARMv5) = 

Action 对 cpsr 的 影响 5 

(D pc = Rm б. Охе T = Rm ©1 С 

@ pc = Rm & Охе T = Rm &1 A 

C 依赖 ]E 的 设置 位 ] ,本 位 会 受到 影 啊 3 

ЖЕ. Š 

© 如 果 Rm pc 和 而且 指 令 是 宝 对 齐 的 , 则 Rm 的 值 为 当前 指令 地 址 吉 8 字 节 一 

(ARM 状态 下 ) 或 者 加 4 字 节 (Thumb 状态 下 )。 A 

€ Rm & 3 一 定 不 能 等 于 2, 因 为 这 将 导致 跳 转 到 一 个 没有 对 齐 的 ARM Б 

指令 。 | | © 

© 如 果 JE(Java Enable) 设 置 位 被 清除 , 则 BX] 相当 于 BX 指令 ;否则 ,指令 的 | а 


执行 情况 将 由 Java 的 扩展 硬件 体系 结构 所 定义 。 典 型 地 , 它 设置 cpsr 的 
j=1, 并 通过 一 个 Java 程序 计数 器 jpe 的 通用 寄存 器 来 开始 执行 Java 


1. 
ФИ: 557 
BX ir ;从 ARM 或 者 Thumb 子 程序 把 回 
Bx rü : 跳 转 到 го 指定 的 ARM 或 Thumb 函数 
CDP 协 处 理 器 数据 操作 指令 
(D CDP«cond^ <сорго:>, «ор», Cd, Cn, Ст, <op2> ARMv2 
D СОР? <соргто->, <op]>, Cd, Сп, Cm, «op27» ARMv5 


OE dS S Е УИН ЭЕ BUE. «C copro>> 为 p0~p15 的 
一 个 协 处 理 器 导 。 如 果 系 统 没 有 协 处 理 器 , 则 将 产生 一 个 未 定义 指令 的 陷 
阱 。<opl> 和 < op2>> 是 协 处 理 器 的 操作 狂 , 协 处 理 器 寄存 器 Cd, Сп 和 Cm 
由 协 处 理 器 解释 ,ARM HARET. COP? 提供 一 组 附加 的 协 处 理 器 指令 。 





CLZ 前 导 零 计数 指令 
CL2< сопа» Rd, Rm ARMv5 
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ARM 嵌入 式 系 统 开发 





Rd 被 设置 为 Rm 左 移 而 不 产生 无 符号 溢出 的 最 大 位 数 。 等 价 地 , 它 也 
是 Rm 的 二 进 制 数 的 最 高 位 的 0 的 个 数 。 如 果 Rm = 0, 则 Rn 等 于 32。 下 
面 的 例子 规格 化 то 的 值 ,这 样 r0 的 位 31 被 置 位 。 


CLZ ri, rÜ ; 找 岂 规格 化 的 移 位 教 
MOV х0, r0, LSL rl + 规格 化 ,0 的 第 31 位 被 置 位 Sif r01= 0) 





CMN 


CMP 


E f SH 

(D CMNzcond? Rn, # «rotated immed-— ARMv1 

© CMN«cond Ка, Rm {, «shift 2) ARMvI 
© CMN Ln, Lm THUMB] 
Action: 


: (D cpsr 标志 通过 (Rn + <rotated_itmmed>>) 的 结果 来 设置 


D epsr 标志 通过 (Ra + «shifted. Rn20 8948 R3 ERE, 
© cpsr 标志 通过 (Ln 十 Lo ЖЖ Е. 


Н. 

è 在 cpsr 中 ;N = «Negative >, = «Zero77,C = «Unsigned— Over- 
flow>, V = <SingedOverflow>>。 这 些 和 CMP 指令 把 第 2 个 操作 数 取 
相反 数 产 生 的 效果 相同 。 

e 如 果 Rn 或 者 Rm 是 pc, 则 这 个 值 是 该 指令 的 地 址 加 8 FE. 


Иш. 


CN r), 3 :0 和 ~3 济 行 比较 

BLT label rif(r0< — 3) goto label 
2 个 32 位 整 型 数 的 比较 指令 
(D СМР< со > Rn, # «rotated immed-— ARMv1 
© CMP«cond Вп, Rm í, <shift>; АЕМ+1 
(9 СМР Ln, 4 «immed8— THUMBvi 
(D CMP Rn, Rm THUMBvi 
Action; 


(D cpsr 标志 通过 (Rn 一 一 rotated_immed>>) 的 结果 来 设置 。 
D cpsr 标志 通过 (Ra 一 <shitt_Rm>) 的 结果 来 设置 。 
© cpsr 标志 通过 (Lan 一 <immed8>>) 的 结果 来 设置 ， 








@) cpsr 标志 通过 (Rn 一 Rm) 的 结果 来 设置 。 


UB. 

Ф 在 cpsr 中 :N = «Negative, Z = «Zero» ,C = «NoUnsigned-Over- 
flow2-,V = «SimgedOverflow22, {и {у z Pr E88 x FEE. EI 
减法 * 一 yy 相当 于 加 法 * 十 全 y 二 1。 如果 = 十 一 ?十 1 溢出 , 则 进位 位 等 二 
1。 当 zr 之 y( 也 就 是 zx 一 y 不 会 溢出 ) 时 ,就 是 这 种 情况 。 

e 如 果 Rn 或 者 Rm 是 pc, 则 这 个 值 是 当前 指令 地 址 加 8 字 节 (ARM 指令 ) 
或 者 加 4 字 节 (Thumb tS), 


例如 ， 


СМР rü, rl, LSR 间 2 0 71/4 ЕК 
BHS label ;if(rü [> = (r1/4)) goto label; 





CPS 


改变 处 理 器 的 状态 ,更改 cpsr 的 被 选择 位 


(D CPS # «mode ARMv6 

© CPSID «flags í, # «mode АЕМ» 

© CPSIE < арз>> (, # <`тойе>} ARMv6 

(D CPSID «flags ` THUMPB»3 
© CPSIE «flags THUMBv3 
Action; 


(D cpsr[4:0] = «mode 

(Q cbsr = cpsr | mask;( cpsr[4;0] = <mode>) 
(Ü epsr == cpsr @—mask;( cpsr[4;0] = «mode» 
(Ü cpsr = cpsr | mask 

6) epsr = cpsr &-mask 


iB «C flags (SEE VUE REED ERU Bs А, D, rh 
断 禁 止 变 量 ID(Interrupt Disable) 通 过 对 cpsr 中 断 屏 项 位 置 T 来 关闭 中 断 。 
中 断 允 许 变 量 IECInterrupt Enable) 通 过 对 cpsr h i E a ЖТА 
中 断 。 


A ARM 和 Thumb 汇编 指令 
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$44 CPS 的 flags 字母 


*os 对 cpsr FOE Em p ü. Bit set in mask 
à A 85 8 E Р ab BEC b: 0х100 = 1 << 8 
i me pedi fr 0х080 = 1 << 7 
f 快速 中 断 屏 项 位 üx040 = ! << 6 





CPY 复制 指令 ,复制 ARM 的 一 个 寄存 器 到 另 一 个 寄存 器 ,而 不 影 呈 cbsr 
(D CPY «cond Rd, Rm ARMv6 
D CPY Rd, Rm THUMBY3 
除了 在 Thumb 指令 下 Rd Ж Rm 都 是 z0 一 I7 的 低地 址 寄存 殴 这 种 情 
况 , 这 条 指令 被 汇编 成 MOV «cond» Rd, Rm。 这 样 它 是 一 个 新 的 设置 Rd 
一 Rm, 而 不 影响 cpsr 的 操作 指令 。 
EOR 32 位 数 的 届 辑 “ 异 或 "操作 指令 
(D EOR<<cond>{5} Rd, Rn, # «rotated immed> ARMvI 
D EOR«cond (8) Rd, Rm í, <>) ARMvI 
(3 EOR Ld, Lm THUMEBvl 
Action | 对 cpsr 的 影响 
(D Rd = Rn ` «rotated immed > MEFR S, 则 更 新 cpsr 
D Rd = Rn ° «shifted Rm 如 果 带 后 级 S, 划 更 新 cpsr 
@ Ld = Ld ^ Lm SECRETS ESO 
注释 ， 


© 如 果 操作 更 新 了 cpsr MA Rd PE pe MN = «Negative7,Z = «Zero», 
C = «shifter C2 (3E A, 3),V 是 受 保 护 的 。 

e ШЖ Rd 是 pc* 则 这 条 指令 的 执行 会 改变 pc 值 , 下 一 条 指令 将 跳 转 到 新 的 
pc 值 所 指向 的 地 址 处 。 如 果 损 作 要 更 新 cbsr, 则 处 理 器 模式 一 定 要 有 一 
个 spsr, 这 样 cpsr 的 值 设置 成 spsr КИК. 

e 如 果 Rn 或 者 Rm 是 pe; 则 计算 出 来 的 值 等 于 这 条 指令 的 地 址 加 8 字 节 ， 

例如 ， 











EOR г0.го. 1 << 16 ;rO 的 位 16 R FE 


一 个 或 多 个 字 的 协 处 理 器 数据 读 取 指 令 


D LIC cond> (L; «сорго», Cd. Rn i; 6 (— )immed87 < 4) 01) ARMS2 
D LDC« cond (L) «ceopro, Cd,[Rn], &(—)«immed87 +4 ARMyv? 
@ LDOC< cond 1L] «сорго», Са, [Rn], «option ARMv2 
D LDC2(L) «copro, Cd,[Rn {, # (—) «immed87» ж 4) ](!] ARMs5 
© LDC2(L) <copro>, Cd.[Rn], #{—)<immed8 > » 4 ARMy5 
© LDC21L; «сорго», Cd.Í Rn]. «option ARMv5 


Ф TF БЕЛЕС ДЕ SIS E BJ URBE RE. <copro> Ж pb 一 pb15 的 协 
处 理 器 编号 ， 如 果 协 处 理 器 不 存在 , 则 将 会 产生 一 个 未 定义 指令 陷阱 。 存 储 
器 通 过 地 址 递增 ,从 一 系列 连续 的 存储 器 单元 宇 中 读 取 数 据 。 初 始 地 址 通过 
38 A.5 中 的 寻 址 方式 来 说 明 。 协 处 理 器 控制 从 存储 器 中 读 取 的 字 的 数量 ,最 
多 不 超过 16 个 字 。 域 {L} 和 Cd 由 协 处 理 器 解释 ,ARM 将 忽略 它 。 典 型 的 
情况 下 ,Cd HIE Rb BE ЛУНА ТЕН. Җ<Сорпоп:> R — + 8 位 的 整 型 
ЖЕНИ КЕКЕ ЕА ЕА НЫК И. 

X* A. 5 LDC 的 寻 址 模式 





TARA 访问 地 址 ж 918 Rn 的 性 
[Ка{,#{—}<татей>}] Rn + {{—)}<ттей >} Rn 受 保护 的 

[Rof # (— ) immed )]! Rn + ((—) Cimmedz-! Rn  ((— HZimmed] 
[Rn], £(-—)immed7 Rn Rn + {—}<Пїтшей> 
[Rn], «option» Rn Rn 受 保 护 的 





如 果 地 址 不 是 4 的 倍数 , 则 地 址 是 没有 对 齐 的。 指令 对 于 没 对 齐 的 地 址 
的 操作 与 LDM 一 样 。 





LDM 


МАЕ B SR — Н 32 位 字 到 ARM 寄存 器 指令 


(D LDM<cond><amode>>  Rní!),«register. list» (^) ARMv1 
(2 LDMIA Kn! , «register, list ТНОМВу] 


指令 从 连续 的 存储 器 单元 中 装 裁 多 个 字 到 寄存 器 中 ，<register_list>> 
由 花 括 号 1 列 出 一 系列 的 需要 装载 的 寄存 器 。 尽 管 指令 允许 以 任意 的 顺序 
列 出 寄存 器 ,但 是 顺序 是 不 保存 在 指令 中 的 。 电 于 通常 的 存储 器 读 取 顺序 是 


A ARM 和 Thumb 汇编 指 今 
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按照 序号 从 小 到 大 的 ,所 以 应 将 寄存 器 的 顺序 按照 从 小 到 大 排列 。 

下 面 的 这 和 且 伪 代码 展示 了 通常 情况 下 LDM 的 指令 执行 情况 。 使 用 
<register_list>>[ 门 表示 出 现在 寄存 器 列表 中 的 第 ;个 家 下 器 ,0 表示 起 始 寄 
存 器 。 假 定 列表 按照 寄存 器 号 增加 的 顺序 排列 。 

N = FERIE <register_list> rh) a ff H 

start = 3& A.6 rp fry c d D [P] Ht hE 

Ғог( і 50,i«N;i t) 

< register_list>[ i] = memory(start + ix 4, 4); 
if (HET 1O then fü RB ЖБ А 6 更 新 Rn 


M A.6 LDM 3 RËS 


ERETO M 5 ш 


Tib x, 和 最低 地址 最 南 地 址 "^ 

{ТА | FD) Rn En + N*4—1 Rn 十 Nx 
ИВ | ED] Rn +4 Rn 4- Nx4 Rn 十 Ns4 
{ЮА | FA)  Rn-Ns44 4 Еп Rn— Мж 4 
{DB | ЕА} Rn—N # 4 Rn—4 Rn—-N*4 


memory(a , 4) 8 У gri Jb B ККА ТЕЙ, ДЕ Pl A Hb Hi а 开始 的 4 字 
节 的 数据 。 如 果 地 址 a 不 等 于 4 的 倍数 , 则 装载 是 没有 对 齐 的。 因为 没有 对 
齐 的 装载 指令 要 依赖 具体 的 体系 结构 版 本 ,存储 山系 统 和 协 处 理 器 系统 
《CP15) 的 配置 ,所 以 应 尽量 如 免 不 对 齐 的 装载 操作 。 如 果 外 部 存储 器 系统 


不 会 因为 不 对 齐 的 装载 操作 而 异常 中 止 , 则 通常 会 遵照 下 面 的 规则 ， 


e 如 果 内 核 有 一 个 系统 协 处 理 器 ,而 且 QP15:cl:ec0:0 的 位 1 CA. bio gk 
位 22 (U_bit) 是 1, 则 不 对 齐 的 批量 存储 器 读 取 将 会 产生 一 个 不 对 齐 数 据 
异常 中 断 。 

e 否则 ,操作 将 会 忽略 最 低 的 2 地 址 位 。 


表 A.6 列 出 了 由 所 amode>> 说 明 的 见 种 寻 址 模式 。 如 果 Rn 后 指定 了 
后 强 “!”, 则 基地 址 寄存 器 按照 表 A 6 更 新 ;否则 它 将 是 被 保护 的 。 

EE: 第 低 编 书 的 寄 让 器 通常 是 读 最 低 序 储 器 地 下 的 教 据 ， 

寻 址 模式 的 前 一 半分 别 代表 IA (过 后 增加 ,Inerement After) IB (预先 
增加 ,increment Before) ,DA (过 后 减少 ,Decrement After) .DB 《预先 减少 ， 
Decrement Before) 。 在 增加 模式 下 , 肽 序 地 向 前 存储 寄存 器 列表 的 寄存 器 ， 











A ARM 和 Thumb [RES 


过 后 增加 从 地 址 Rn 开始 ,预先 增加 从 地 址 Rn 十 4 开始 。 在 减少 模式 下 ,如 
果 采 用 疝 后 存储 寄存 器 列表 的 寄存 器 ,并 且 按 照 存储 器 地 址 减少 的 方式 读 取 
数据 , 则 和 增加 模式 有 一 样 的 效果 ,但 基 起 始 地 址 不 一 样 , 过 后 减少 是 Еп, 
预先 减少 是 Rn 一 4。 

寻 址 模式 的 后 一 半 代 表 栈 的 类 型 ,是 满 堆栈 还 是 空 堆栈 ,是 递增 栈 ( 升 序 
BOE T EIR CEFER): FD (WREE, Full Descending), ED (2 ES, 
Empty Descending) ,FA【 满 升序 , Full Ascending), EA (% 升序 ,Empty 
Ascending)。 对 于 一 个 满 堆栈 ,Rn 指向 栈 的 最 后 一 个 值 ; 对 于 空 堆栈 ,Rn 指 
向 栈 的 第 一 个 未 使 用 的 位 置 。ARM 的 栈 通常 是 下 降 式 满 堆栈 ( 满 降序 )， 
可 以 根据 自己 的 偏好 来 选择 使 用 满 降序 还 是 空 升 序 ，LDC 指令 同样 适合 这 
些 寻 址 模式 。 


HE. 

€ 对 于 Thumb( 第 2 条 指令 格式 ) ,Rn ЖЖ ЖО Rr BO TE SEL 0 
t1. 

e 列表 中 的 寄存 器 数目 N 必须 是 非 0 的 。 

€ Rn 不 能 是 pc, 

e 如 果 指 定 了 “1”( 回 写 ) , 则 Rn 不 能 出 现在 寄存 器 列表 中 。 

€ ШЖ pe 出 现在 寄存 器 列表 中 , 则 在 ARMv5 或 以 上 体系 结构 中 ,处 理 咒 执 
行 一 条 BX 指令 , 跳 转 到 要 装载 的 地 址 。 如 果 是 ARMv4 或 以 下 的 体系 结 
构 , 则 处 理 器 直接 跳 转 到 要 装 我 的 地 址 ， | 

e АЖ «register list Ir Bib fg 977 ‚ШЕ 2 HEISE, 这 时 的 处 理 
铸模 式 一 定 不 能 是 用 户 模式 或 系统 模式 。 如 果 pc 不 在 寄存 器 列表 中 , 则 
出 现在 寄存 器 列表 中 的 寄存 器 参照 寄存 器 的 用 户 模式 版 本 ,而 且 一 定 不 
能 指定 回 写 :如 果 pe 在 寄存 器 列表 中 , 则 在 标准 操作 的 基础 上 ,还 要 将 
spsr 的 值 拷贝 到 cpsr 中 去 。 

e 存储 器 读 取 的 时 序 依赖 于 指令 的 执行 情况 。 在 使 用 多 字 节 存 取 指 令 处 理 
WO 时 ,要 注意 时 序 问题 。 如 果 与 时 序 有 关 , 则 要 检查 1/O 映射 的 存储 器 
位 置 是 否 在 页 表 内 。 不 要 超出 页 表 边 界 ,而且 不 要 让 pe 在 寄存 器 列 
表 中 。 


例如 : 
LDMIA r4l, (rO, ri} 0 = #14, r1 = «(r4 4 4), га 428 
LDMDB rdl, (rO, r1] згі= &(r4—-4), г0= «(r4- 8), r4--8 
LDMEQFD — spl, {r0, рс) ;if(result zero)then unstack rÜ, pc 
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LDMED вр, (sp! :load sp usr from sp current 


LDMFD sb, [rü — par" ;return from exception, restore cpsr 


从 存储 器 到 寄存 器 的 单一 数据 读 取 指 令 


(DLDR«cond—/|B) Ка, [Rn i, #{—}<їттей127>}]{!) ARMv1 
© LDRcond>{ |B} Rd, [Rn, (—)Rm 1, «imm shift») ](!) ARMvi 
@ LDR«cond-(|B)(T? Rd, [Rn], $(—)«immedl27» ARMvI 


D LDR« cond» (|BH T) Rd, [Rn], (—) Rm {, «imm shift»! АВМУ1 
б) LDR«cond- (H|SB|SH! Rd, [Rn], f, # i HT HA 


© LDR«cond— (H|SB|SH! Rd, [Rn, !— Rm]! ARMv4 

D LDR<cond>1H]SB SH) Rd, [Rn], um medi ARMv4 

@ LDR<con£>1H|SB|SH) Rd. [Rn], (—)Rm ARMv4 

(8 LDR«cond- D Ка, [Rn, 0, L cieli b ARMv5E 
(0 LDR< cond> D Rd, [Rn, (—)Rm Ü) ARMv5E 
D LDR«cond-D Rd, [ Ra, # (— )<immed8> АКМУ5Е 
(2 LDR«cond^ D Rd, [Rn], (—)Rm ARMv5E 
(9 LDREX« cond Rd, [Rn] ARMY6 

qà LDR(IBIH) Ld. [Ln, # «immed57 # «size» | THUMRBvI 
d LDR(IBIHISBISH; Ld, [Ln, Lm] THUMEvi 
(5 LDR Ld. [pe, # «immed& x 4] THUMBY1 

D LDR Ld, [sp, #<immed8 > « 4] THUMBv1 

(f$ LDR« cond «typeRd, «label» MACRO 

(9 LDR« cond Ка, —«32-— bit— value> MACRO 


第 1~17 条 指令 都 是 装载 单一 的 数据 ,操作 码 后 缀 指定 数据 类 型 ,使 用 
前 变 址 或 后 变 址 的 寻 址 模式 。 表 ALT 和 表 A. 8 列 出 了 不 同 的 寻 址 模式 和 数 
据 类 型。 


5*4.7 LDR 等 址 模式 
一 -一 -~ -~ ML 


Tau x AU а É J k: Rn 的 什 

[Rn (, 4 (—) immed»]] Rn + {{—}<пшше@ >} Rn 受 保 护 的 

[Rn {> #[(—)<immed2>)J1 Rn 十 dH — i immed2-! Rn + (í—)<immed2>) 
[Rn, (—)Rm [, «shift-)] Ва + {— l< shifted Rmo Rn 县 保护 的 


[Rn. {—}Ёт{, «shift» ) ]! En + {— shifted. Rm Rn + (—) shifted Rm» 
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LDRSH . Signed Halfword 
LDRT word Translated 


Rd = (sign—extend) memory(a, 2) 


ER ALT > 
i T 
寻 址 模式 入 口 地 址 a 返回 络 Rn ñ iË A 
Ка], #{— immed > En Rn | í: j«immedz = 
[Еп], (— Rm í, =shifr> ) Еп Kn- 4c ¿< shited Em a 
-| 
J 
表 A.8 LDR 的 数据 类 型 5 
Load ке < size (bytes) Ж 4 (т 
LDR word 4 Rd = memory(a, 4) A 
LDRE unsigned Byte 1 Rd = (zero— extend) memory(a, 1) Š 
LDRBT Byte Translated 1 Rd = (zero-- extend) memoryT(a, 1) C 
Rd = memory(a, 4) Ф 
LDRD Double word 8 mu 
Rid+1) = memory(a4-4, 4) > 
e 
LDREX Word EXclusive 4 Rd = memoryExta, 1) C 
LDRH unsigned Halfword 2 Rd = (zero— extend) memory(a, 2) О, 
LDRSB Signed Byte 1 Rd = (sign—extend)memory(a, 1) g 
en 

2 

4 


Rd = memoryT(a, 4) 


ЖФ A. 8 中 ,memory(a, я) А a 开始 顺序 地 读 取 n 个 字 节 的 数据 ， 
数据 的 打包 根据 当前 处 理 器 的 字 节 排列 版 序 不 同 而 不 同 。 函 数 memory T 
(a, n BHERI memory(a, nn) 一 样 ,但 它 不 考 虚 当前 的 处 理 器 模式 ,都 按照 特 
权 级 用 户 模式 进行 处 理 。 函 数 memoryEx(a, п) B LDREX 独占 调用 执行 ， 
如 果 地 址 а 有 共享 TLB 属性 , 则 它 将 会 把 地 址 a 作为 当前 处 理 器 访问 的 独 
占 标记 ,而 清除 处 理 器 的 其 它 独占 访问 地 址 ;否则 处 理 器 将 会 记录 这 里 有 一 
个 蕊 而 未 决 的 独占 访问 地 址 。 独 占 人 性 只 会 影响 到 STREX 指令 的 执行 ， 

如 果 地 址 a 不 是 <<size 污 的 倍数 , 则 读 取 指令 是 没有 对 齐 的 。 因 为 没 对 
齐 的 读 取 操作 依赖 于 系统 体系 结构 的 版 本 、 存 储 器 系统 和 协 处 理 器 系统 
”CP15) 的 配置 ,所 以 尽量 避免 不 对 齐 的 操作 。 假 定 外 部 的 存储 系统 不 会 因为 
不 对 齐 读 取 数 据 而 产生 异常 中 断 , 则 通常 会 按照 如 下 的 规则 执行 。 在 该 规则 
下 ,A 是 协 处 理 器 寄存 器 CP15:01:c0,0 的 位 1,U 是 协 处 理 器 寄存 器 CP15， 
с1:00.0 的 位 22。 如 果 系 统 没有 协 处 理 器 , 则 A = U = 0, 


e 如 果 A = 1, 则 除了 在 U = 1 的 字 对 齐 的 双 字 读 取 操作 外 ,都 会 因为 不 对 
齐 的 读 取 操作 而 产生 一 个 数据 对 齐 错误 的 异常 中 断 .。 
e WRA 二 0,0 = 1, 则 LDR{|TIH|SH) 支 持 不 对 齐 的 读 取 操作 ,LDRD 
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ER. 


支持 字 对 齐 的 读 取 操作 ， 一 个 非 字 对 齐 Cnon-word-aligned) 的 LDRD iX 
取 操 作 将 会 产生 一 个 数据 对 齐 错 谋 的 异常 中 断 。 

e 如 果 A ~0,0 = 0, W LDR 和 LDRT 返回 值 是 memory(a & —3, 4) 
RORCCa&3) ж 8)。 所 有 的 其 它 不 对 齐 的 操作 结果 都 是 不 可 预知 的 ,但 是 
不 会 产生 一 个 对 齐 错误 ， 

第 18 条 指令 通过 由 < 近 label>> 指 定 的 地 址 产生 一 个 和 pc 相关 的 读 取 操 作 。 

也 就 是 说 ,在 支持 这 条 指令 的 情况 下 , Wi eL offset = «label > — pc tB E Ў El 

FIJAS GO mLDR«cond—-type Rd, pc, # «offset ]. 

第 19 条 指令 产生 一 条 指令 , 拒 给 定 的 32 位 数值 保存 到 寄存 器 Rd, i 

常 这 条 指令 是 LDR« cond? Rd, Гре, # «offset» ],3X ^P 32 位 数 保存 在 以 

bb (рс — offset 7E 88 J — 4" X: E 3E (literal pooD 中， 


e 对 于 双 字 的 读 取 操 作 ( 第 9—12 40 Rd 必须 是 r0~rl2 BOUES dp EE. 

e 如 果 寻 址 模式 更 新 了 Ка, Ш Rd 和 Rn 一 定 要 是 不 向 的 寄存 器 ， 

e 如 果 Rd 是 pc, 则 <size>> 一 定 要 等 于 4。 对 于 ARM 及 其 以 前 的 体系 结 
构 来 说 ,直接 跳 转 到 读 取 的 地 址 ;对 于 ARMv5 或 者 更 离 的 体系 结构 , 则 系 
统 执行 一 条 BX 指令 , 跳 转 到 读 取 的 地 址 。 

@ 如 果 Rn 是 bc, 则 寻 址 模式 一 定 不 能 葛 新 Rn。 对 于 ARM, Rn 的 值 等 于 当前 


指令 的 地 址 加 8 字 节 ;对 于 Thumb, Rn 的 秆 等 于 当前 指令 的 地 址 加 4 字 节 。 


€ 对 于 ARMv6 ,使 用 LDREX RI STREX 来 执行 原 语 ,而 不 用 指令 SWP, 
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€ Rm 一 定 不 能 是 pc, 

例如 ， 
IDR — ro, [z0] 
LDRSH rO, [r1], #4 
IDRB  rü,[r1, # - 8|I 
LRD r2, [r1] 
LDRSB гб, [r2, #55] 
LDRCC ре, [pe, r0, LSL #2] 
LDRB 
LDR rü, = 0х12345678 


rŪ = ж (int ж }г0; 

:rü = *(shorb *)г1{г1+= 4, 

{т1 -= 8;г0 = «(char = )гі; 

12 ^ (int x )ri;r3 = s (int «)(rl +4); 
:г0 = (signed char x )(r2 +55); 


+iftC== 0) goto * (pct dx r0), 


г0, [rl], -r2, LSL #8;r0 = w (char *)ri;r! -= 256* r2; 


;rÜ = 0x12345678; 


一 


LSL 


Thumb 的 逻辑 左 称 指令 {参见 ARM 的 MOV 指令 ) 


THUMByY] 








A ARM 和 Thümb 汇编 指令 





@ LSL  Ld,Ls THUMBY] 
Action 对 cpsr 的 影响 

(D Ld = Lm LSL # <immed5 > 更 新 ( 见 下 面 的 注释 ) 

© Ld = Ld LSL Ls[7;0] 更 新 

注释 : 


cpsr 的 更 新 为 ;N = <—Negative> Z = <Zero>,C = «shift C (X А. 3), 


SUOHonisuieldquuessv Сып puo ууу v 


LSR Thumb йй 38 £5 3638 4 (# B, ARM 的 MOV 指令 ) 
(D LSR Ld. Lm, £ «immed57- THUMBvi 
(3) LSR Ld, Ls THUMPB»I1 
Action 对 cpsr 的 影响 
(D Ld = Lm LSR #—immed5> SEC B Bg ERO 
Q Ld = Ld LSR Ls[7;0) 更 新 
注释 : 


cpsr 的 更 新 为 :N = <Negative>,Z = «Zero, C = «shift C> OLE А. 3). 


MCR 从 一 个 ARM 寄存 器 到 洲 处 理 器 的 传送 指令 


MCRR 567 


(D MCR«cond- <copro>, «op, Rd, Cn, Cm {, «Copg2) АЕМ 


D MCR2 «Ceopro2» , <орГ>, Rd, Cn, Cm {, <op22>) ARMv5 
(9 MCRR«cond- «opm», «орг», Rd, Кп, Cm ARME 
Ф MCRRZ <copro>, <opl>, Ва, Кп. Cm ARMwv6 


这 些 指令 把 寄存 器 Rd 的 值 传 送 到 指定 的 协 处 理 器 去 。 第 3 和 第 4 条 
指令 还 将 传送 第 2 个 寄存 器 Ra。 一 cobro 汪 是 bp0 一 pl5 ВИКА S. 4i 
果 没 有 协 处 理 器 存在 , 则 会 产生 一 个 未 定义 指令 的 陷阱 。 由 所 opl1> 和 
< 过 0p2 污 指定 协 处 理 器 操作 ,由 Cn 和 Cm JEE TARER ES S ELA HI 
协 处 理 器 解释 ,ARM 将 会 忽 路 它们 。Rd 和 Rn 一 定 不 能 是 pe。 协 处 理 器 
pio 控制 存储 器 管理 操作 , 见 第 13 章 和 第 14 章 中 对 存储 器 管理 单元 MPU 
和 MMU 的 描述 。 例 如 下 面 的 代码 序列 进行 初始 化 对 齐 错误 的 检查 。 


МЕС рі5, 0, rü, cl, сб, Ó read the ММЏ register, cl 
ORR rD, r0, H2 ,Set the А bit 
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MCR р15, O, rÜ, cl, ců, 0 ;Write the MMU register, cl 





MLA Ж EN IRE S 
MLA cond {8} Rd, Rm, Rs, Rn ARMv2 
Action 对 cpsr 的 影响 
Rd 一 Rn 十 RmxRs 如 果 指 定 了 后 绥 $, 则 更 新 
IE 
e Rd 作为 低 32 (v) Hg Sp fr dB. 
€ Rd, Кт. Ке 和 Rn 都 不 能 是 pc. 
e Rd 和 Rm 必须 是 不 同 的 害 存 器 ， 
e 指令 可 能 会 因为 操作 数 Rs 的 值 而 提前 结束 。Rs 应 尽量 使 用 很 小 的 数 或 
者 常数 , 见 附 录 D. 
@ 如 果 cpsr 被 更 新 , 则 N = <Negative> Z = <`7его:>,С 是 不 可 预知 
的 ,VY 是 受 保护 的 。 因 为 使 用 MLAS 经 常会 产生 多 余 的 指令 周期 而 影 哨 
到 其 它 指 令 的 热 行 ,所 以 应 加 负 使 用 指令 MLAS。 用 MLA 后 面 归 一 条 
比较 指令 来 代替 ,这 样 就 会 避免 因 乘 法 结果 带 来 的 互 锁 。 
MOY 把 一 个 32 位 数 传 送 到 寄存 器 的 传送 指令 


(D MOV-«cond/S) Rd, #<rotated_ immed> АЕМу1 

D MOV<cond>1S) Rd, Rm |, «shift? ARMv1 

( MOV Ld, # «immed8— THUMB 
( MOV Ld, Ln THUMBv1 
© MOV Hd, Lm THUMBv1 
© MOV Ld, Hm THUMBv1 
(D MOV Hd, Hm THUMBvI 
Áction 对 cpsr 的 影响 

(D Rd = <rotated_immed> 如 果 指 定 了 后 缀 S, 则 更 新 cpsr 
© Rd = «shifted Rm 如 果 指 定 了 后 级 S, 则 更 新 cpsr 
© Ld  -immed8 更 新 epsrCI, T. BBH ) 

G Ld = Ln 更 新 cpsr( 见 下 面 的 注释 ) 

© Hd = Lm 县 保护 的 


© Ld = Hm 受 保护 的 
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(D Hd = Hm 受 保 护 的 

if. 

e 如 果 操 作 要 更 新 cpsr m H. Rd 不 是 pcy 则 N = < Negative,Z = «Ze- 
ro2,C = «shift C (OLX A DV 是 爱 保 护 的 。 

e 如 果 Rd 或 者 Hd 是 pc, 这 条 指令 的 计算 结果 改变 pc 值 , 则 下 一 条 指令 将 
ВЕЕ ЕНУ pe 的 新 值 为 地 此 处 。 如 果 操 作 要 更 新 cpsr, 则 处 理 器 模式 一 定 
要 有 一 个 spsr, 这 样 cpsr 的 值 设置 成 spsr 的 值 。 

€ ШЖ Rm 是 pe, 则 所 使 用 的 值 是 当前 指令 的 地 址 加 8 字 节 。 

e 如 果 Hm 是 pc; 则 所 使 用 的 值 基 当 前 指令 的 地 址 加 4 字 节 ， 


例如 : 


МОУ r), #0х00{10000 0 = 0x00Í0000 
MOV r), rl, LSL #2 0 = 4 * rl 


SUÚOHOnulSujj Iejquuessy ашти puo у V 


MOV ре, [= rM PERE В (ре = Ir) 
MOVS ре, lr + 从 异常 返回 (pc = lr, epsr = spsr) 
МЕС 从 内 处 理 器 到 ARM 寄存 器 的 传送 指令 
MRRC 
(D MRC«cond — «copro, «орг», Rd, Cn, Cm , opf > | ARMvZ 
© MRC2 «copro2*, «opl2», Rd, Cn, Cm , «op27» ARMv5 569 
(9 MRRC«cond <çcopro>, <орі2>, Rd, Rn, Ст ARMNYSE 


(D MRRC2 <сорго>, <орГ>, Rd, Rn, Cm ARMY6 


这 些 指令 把 一 个 指定 的 协 处 理 器 的 32 位 数 传送 到 АКМ 寄存 器 Rd, 
第 3 和 第 4 条 指令 还 要 传送 一 个 32 位 数 到 寡 存 器 Rn, «сорго № pi~ 
pio 范围 内 的 协 处 理 器 号 。 如 果 系 统 洪 有 协 处 理 器 , 则 将 会 产生 一 个 未 定 
义 指令 的 陶 阱 。 由 < 过 opl 污 和 < 之 op2 污 指定 协 处 理 吕 操作 ,由 Cn 和 Cm fü 
定 的 协 处 理 器 寄 看 器 号 都 由 协 处 理 器 解释 ,ARM 将 会 忽略 它们 。 对 于 第 1 
和 第 2 条 指令 ,如 果 Rd 是 рс. срзг 的 高 4 位 (cpsr 的 МАСУ 4 个 条 件 标 
志 位 ) 被 设置 为 被 传送 的 32 位 数 的 最 高 4 位 ,pc 不 会 受到 影响 。 对 于 其 它 
的 2 条 指令 ,Rd 和 Rn 应 是 不 同 的 寄存 器 ,而 且 不 能 是 pc. 

协 处 理 器 CP15 控制 存储 器 管理 操作 ( 刀 第 12 章 和 第 13 章 )。 例 如 ， 
下 面 的 指令 将 从 CP15 中 读 取 主 ID 寄存 器 : 
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MRS 


MSR 


МЕС pl5, 0, rO, cO, cO jread the MMU ID Register, cü 





从 状态 寄存 器 ( epsr or spsr ) 到 ARM 寄存 器 的 传送 指令 


(p MRS« cond Rd, epsr ARMv3 
D MRS« cond Rd, spsr ARMv3 


这 些 指令 分 别 把 Rd 寄存 器 设置 为 Rd = cpsr # Rd = spsr, Rd 一 定 不 能 
是 pe, 


从 ARM 寄存 器 到 状态 寄存 器 ( cpsr or spsr ) 的 传送 指令 


(D MSR<cond> cpsr «fields», # «rotated immed ARMv3 
D МВ < соп» cpsr_ «—fields7, Rm АКМУЗ 
@) МК <сопа>> spsr «fields, # «rotated immed> АВМ» 
Ф MSRx cond spsr. «fileds^, Rm ARM»v3 
Action: 


(D epsr = (cpsr & —«mask22) | (—rotated_immed> & <mask>) 
© epsr = (cpsr &~ mask») | (Rm & «mask») 
(Ü spsr = (spsr &--«mask») | (—rotated_immed> & <mask>) 
(Ü spsr = (spsr ~ «mask ») | (Rm & « mask») 


这 些 指令 通过 掩 码 的 值 来 改变 cpsr 或 spsr 的 被 选择 字 节 的 值 。 通 过 指 
定 <fields>> 为 一 个 或 者 几 个 宝 母 的 序列 ,来 确定 掩 码 < 一 mask> 被 选择 要 置 
位 的 字 节 。 见 表 A.9。 


AS 指定 的 二 fields> 格 式 





fields FF 会 x ЖА < тав > Hiti 
© EY (Control byte) 0x000000ff 
x T RU B (eXtension byte) 0х0000100 
5 状态 字 节 (Status byte) 0х00{%0000 
f 标志 字 节 (Flags byte) 0х11000000 





EZH ARM T R.& ftir cpsr 或 者 cpsr_all {М cpsr_fsxc。 它 们 也 
分 别 使 用 cpsr flag 和 cpsr_cetl 代替 cpsr f 和 cpsr_c。spsr 也 有 相同 的 格式 ， 
然而 这 些 格式 都 是 很 陈 肯 的 ,所 以 现在 不 使 用 它们 。 下 面 的 代码 可 以 切换 到 
系统 模式 并 且 人 允许 IRQ 中 断 , 这 些 对 于 可 重 人 的 中 断 服 务 程序 是 非常 有 











A ARM 和 Thumb 汇编 指令 





> 

用 的 ， » 

MES rü, cpsr (EE cpsr 的 状态 

BIC rü, rO, HOx9f ;清除 Тар 禁止 位 和 楼 式 位 Q 

ORR 00,10, HOxIÉ ;设置 为 系统 模式 a 

MSR cpsr с, г0 i 更 新 cpsr й] -4 

一 一 一 一 一 一 一 一 dg 
MUL 乘法 指令 B 
Ф MUL<cond>!S) Ва, Rm, Rs ARMv2 р 

© MUL Ld, Lm THUMBvl 3 

Action 对 cpsr 的 影响 š 

(D Rd = Rm * Rs 如 果 指 定 了 后 缀 $, 则 更 新 = 

Q Ld = Lm = Ld 更 新 = 

kg, Š 

e Rd 或 Ld 用 于 保存 结果 的 低 32 位 ， S 

с» 


e Rd,Rm 和 Rs 都 不 能 是 ре, 

€ Rd 和 Rm 必须 是 不 同 的 寄存 器 ,同样 Ld 和 Lm 也 应 是 不 同 的 ， 

e 执行 可 能 会 因为 操作 数 Rs 或 Ld 的 值 而 提前 中 止 ,所 以 要 尽量 使 Rs 和 
Ld 的 值 比较 小 或 使 用 常数 。 

@ ШЖ cpsr 更 新 了 , 则 N = «Negative ,2 = < Тего, C 是 不 可 预知 
的 ,V 是 受 保护 的 。 因 为 使 用 MULS 经 常会 产生 多 余 的 指令 周期 而 影响 
到 其 它 指令 的 执行 ,所 以 应 避免 使 用 指令 MULS, H MUL EBE — £ 
比较 指令 来 代 共 ,这样 就 会 避免 因 乘 法 结果 带 来 的 下 锁 ， 


-一 LLL 
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МУМ 将 一 个 32 位 数 角 辑 取 反 后 传送 到 寄存 咒 的 指令 
(D MVN<cond>>1S) Rd, & «rotated immed» ARMvI 
四 MVN<cond> {S$} Rd, Rm (, «shift» ARMvl 
(3 МҮМ Ld, Lm THUMBv1 
Action 对 cpsr 的 影响 


(D Rd =~ rotated. immed 如 果 指 定 了 后 级 S$; 则 更 新 
D Rd =—<shifted_Rm> 如 果 指 定 了 后 强 S, 则 更 新 
D Ld —--Lm | 更 新 ( 见 下 面 的 注释 ) 
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ARM I AGURSUTA 








注释 ， 

e 如 果 操 作 要 更 新 cpsr 并 且 Rd A # рс, Й N = «Negative, Z = 
«Zero ,U = «shift C 05 M A D.V 是 受 保护 的 。 

e 如 果 Rd 是 pe; 则 指令 的 执行 结果 将 会 影响 到 下 一 条 指令 的 执行 地 址 。 
如 果 操 必要 更 新 cpsr, 则 处 理 器 模式 一 定 要 有 一 个 sps 寄存 器 , 这样， 
cpsr 的 值 将 被 设置 成 spsr 的 值 。 

e 如 果 Rm 是 pc, 则 所 使 用 的 值 是 当前 指令 的 地 址 加 8 字 节 。 


例如 : 


МҮН 2:0, #0xff r0 = DxffFFFF00 
МҮК го, #0 г) -1 





МЕС 


在 Thumb 状态 下 求 相反 数 的 指令 (在 ARM 状态 下 求 相反 数 用 RSB 指令 ) 


МЕС Ld, Lm THUMBv1 
Action 对 cpsr 的 影响 

Ld = 一 Lm 更 新 ( 见 下 面 的 注释 ) 

ЖЕ. 


9 cpsr Т: № «Negative» ,Z— «его, С= < NoUnsignedOver- 
flow», = «SignedOverflow» , 


iE: Z = C$ V = (Ld= =0x80000000), 
e 这 和 ARM 状态 下 的 RSBS Ld, Lm, #0 指令 有 相同 的 操作 , 


——wmm t aa 


NOP 


空 操作 指令 
NOP MACRO 


这 不 是 一 条 ARM 指令 , 测 是 一 条 不 会 产生 任何 影响 的 宕 汇编 指令 ,其 
作用 仅仅 是 用 于 增加 pe, Æ ARM 状态 下 被 汇编 成 MOV r0，r0 指令 ;在 
Thumb 状态 下 汇编 成 MOV r8, :8 指令 。 这 个 操作 本 用 的 时 间 不 被 保证 在 
一 个 处 理 辟 周期 之 内 。 特 别 地 ,如 果 对 r0 装载 后 使 用 NOP 指令 ,可 能 会 导 
致 流水 线 的 互 锁 ， 


OO ` 


ORR 


32 位 数 的 控 位 逻辑 “或 "操作 指令 
(D ORR<cond>(S) Rd, Rn, #<rotated immed>> ARMv1 














A ARM 和 Thumb 汇编 指令 


O ORR<—cond>( (S) Rd, Rn, Rm {, «shift»? ARMvi 
(à ORR Ld. Lm THUMBv1 
Action 对 cpsr 的 影响 


(D Rd = Rn | <rotated_imrmed>> ”如 果 指 定 了 后 绿 S, 则 更 新 
© Rd = Rn | «shifted, Rm» ШЖ т DS SEN 
G Ld — Ld | Lm Ж ЖОМ, РЕАЛЕ 


Ж: 

e 如 果 操 作 要 更 新 cpsr 并 且 Rd 不 是 pe, 则 N = < Negative, Z = 
«Zero? ,UC = «shifter C>( 见 表 A,3),V 是 受 保 护 的 ， 

e 如 果 Rd 是 pe, 则 指令 的 执行 结果 将 会 影响 到 下 一 条 指令 的 执行 地 址 。 部 
果 操 作 要 更 新 cpsr, 则 处 理 央 模式 一 定 要 有 一 个 sper 寄存 器 。 这 样 ,cpsr 
的 值 将 被 设置 成 spsr КИЯ. 

e 如 果 Rn Rm 是 pc; 则 所 使 用 的 值 是 当前 指令 的 地 址 加 上 8 字 节 ， 


例如 ， 


ÜRR rü, rÜ, H1 << 13 :把 ro {у 13 R 1 


suouonisur 1ejquuessy quunu| pup Way V 





PKH 把 2 个 15 位 的 半 字 合并 成 一 个 32 位 字 的 操作 指令 


Ф PKHBT«cond^ Rd, Rn, Rm í, LSL # <0—312>) ARMv6 
()PKHTB«cond Rd, Rn, Rm i, ASR 8 «1—32»; ARMv6 
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Action 

(D Rd 15,00] = Rr[ 15,00]; Rd[ 31,16] = «shifted Rm7[31,16 j 
© Rd[ 31,16] = Rn[ 31:16]; Rd[ 15.00] = «shifted Кт2> [15:00 
ЖЖ: 

Ка, Кп 和 Rm 都 一 定 不 能 是 pc. cpsr 不 会 受到 影响 。 

例如 : 


РЕНВТ rọ, rl, r2, LSL #16 го = (r2[15,00] << 16) | r1(15,00] 
PKEBT rö, v2, rl, ASR #16 го = (r2[31:15] << 16) | r1[31;15] 


PLD 预 取 上 暗示 指令 


(D PLD [Rn í, &(—)«immedl27»j] ARMvSE 
© PLD | Rn, (—)Rm {, «imm, shift] ] ARMYvSE 








ARM RAR RANA 


Action: 
O 从 地 址 (Rn + (07) «immedl22 D REC, 
Q 从 地 址 (Rn + (7) shifted Rm BUR. 


这 条 指令 不 会 影响 到 处 理 器 寄存 器 (只 是 增加 pe 的 值 )。 它 仅仅 暗示 程 
序 将 来 可 能 会 到 给 定 的 地 址 去 读数 据 。 一 个 带 高 速 缓存 的 处 理 帮 可 能 把 这 
个 当成 从 给 定 的 地 址 读 取 数 据 到 高 速 缓 存 中 去 的 暗示 。 这 条 指令 不 会 产生 
任何 的 数据 异常 或 者 其 它 的 存储 器 系统 错误 。 如 果 Rn E pc, 则 Rn 的 值 等 
于 当前 指令 的 地 址 加 上 8 字 节 。Rm 一 定 不 能 是 pc, | 


例如 ， 


PLD [rO, #7] ;从 r0 + 7 预 取 数 据 
PLD [r0, r1, LSL #2] A ro 4d rl ИЖЕ 


2 
< 
co 
9 
Ф 
j 
9 
< 
t 
Q 
Ü 
Ф 
© 
Ф 
=. 
б 
Ф 


РОР Thumb 状态 下 ,从 堆栈 中 弹出 多 个 字 节 到 寄存 器 组 (ARM 状态 使 用 LDM) 


POP <regster listo» — THUMB» | 
Action; 


等 价 于 ARM 指令 ,LDMEFD sp!, «register, list», 


«register. listo» TUDE 1077 的 寄存 器 和 pe 寄存 器 。 下 面 的 代码 恢 
574 Я ARM 的 低 编 号 寡 存 器 并 县 从 子 程序 中 返回 ; 


POP [r0 - z7, рс} 





PUSH 在 Thumb 状态 下 , 保存 多 个 寄存 器 数据 到 堆栈 中 去 (ARM 状态 下 使 用 
STM) 
PUSH «regster list» THUMRBvI 
Action: 
等 价 于 ARM 指令 ,STMFD sp!, «register list», | 
<tegister_list> 可 以 包含 r0 一 r7 HERRA ir ЖЕ. TAREE 
F ARM 的 低 编 号 寄存 器 和 链接 寄存 器 ， 
PUSH [r0 - r7, 1r) 


一 一 一 一 一  _  _  _ o 


QADD 
QDADD 
QDSUB 
QSUB 





人 饱和 的 (Saturated) 有 符号 和 无 符号 的 算术 运算 指令 


(D QADD« cond 

D ОРАО cond 

D QSUB« cond 

@ QDSUB« cond 

© (U 6Арр16< cond 

© (U)QADDSUBX « cond 
Ф (U)QSUBADDX «c cond» 
@ (UJ QSUBI6 cond 

D {U QADD8 < cond 

10 (U QSUBS« cond 


Action: 


Q) Rd = sat32(Rm + Rn) 


Rd, Rm, Rn 
Rd, Rm, Rn 
Rd, Rm, Rn 
Rd, Rm, Rn 
Rd, Rn, Rm 
Rd, Rn, Rm 
Rd, Rn, Rm 
Rd, Rn, Rm 
Rd, Rn, Rm 
Rd, Rn, Rm 


(2) Rd = sat32(Rm --sat32(2 x Rn)) 


D Rd = sat32(Rm-- Еп) 


Ф Rd = sat32(Rm— sat32(2 x Rn)) 


© Rd[ 31:16] = satlGCRa[ 31; 
Rd[15,00] = sat16CRn[ 15; 
@ Rd[31:16] = sat16CRn[31; 
Rd[ 15,00] = sat16(Rn[15; 
D Rd[31;16] = satl6CRn[31. 
[15.00] = sat16(Rn[15. 
(B Rd[31:16] = satl6(Rn[31, 
Rd[15:00] = satl&(Rn[15; 
© Rd[31:24] = sat8(Rn[31;24] + Rm(31; 
Rd[ 23:16] = sat8(Rn[23,16] + Rm|23; 
sat8&(RnL 15:08] + Rm[15 


16] 十 Rm[ 31 
00] + Rm[15 
16] 十 Rm[31 
00] 一 Rm[ 15 
16] 一 Rm[ 31 
00 十 Rm[15 


16] 一 Rm[31; 
00] — Rml 15; 





Rd[07.00] = sat8(Rn[07,00] + Rm[07 


{0 Rd[31:24] = 








:08 1); 
:00 p 


sat8(Rn[31;24] 一 Rm[31:24; 
Rd[23,16] = sat8(Rn[23;16] — Rm[23;16]); 


A ARM Ñ Thumb 汇编 指 今 


АКМУ5Е 
ARMv5E 
АКМУ5Е 
АЕМУ5Е 
АКМуб 
ARMv6 
ARMv6G 
АЕМ» 
ARMv6 
ARMv6 





» 
> 
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< 
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Q. 
—4 
m 
c 
3 
б 
> 
п 
Ф 
3 
© 
Ф 
5 
= 
C 
б 
== 
О 
= 
Kry 
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ARM 嵌入 式 系统 开发 


Rd[15,08] = sat8(Rn[15:08] 一 Rm[15:08]); 
Rd[07,00] = sat&(Rn[07,00] 一 Ет[07:00]) 


注释 ， 

e 如 果 没 有 指定 前 继 口 , 则 是 有 符号 运算 ,否则 是 无 符号 运算 。 如 果 是 有 符 
号 , 则 зато х 到 范围 2 1L > 之 21 如 果 是 无 符 导 , 则 satN 
(OWA r BHR o =< x < 2", 

e 如 果 怕 和 发 生 了 ,出 cpsr 的 Q 标 志 位 置 1: 否 则 它 是 受 保护 的 。 

è Rd,Rn, Rm 都 不 能 是 pe, 

e X 操作 对 于 复数 的 打包 运算 很 有 用 。 下 面 的 代码 假定 bits[ 15;00] 是 复数 
的 实 部 ,bits[31:16j 是 虑 部 。 


例如 ; 


ODADD rÜ, r0, r2 dE 030 的 值 rz 可 到 031 的 票 加 器 rO 
QADD16 rů, rl, r2 4SIMD 4& 30 J8 Jill 

QADDSUBX rÜ, rl, r2 3 打包 的 复数 运算 r0 = rc ixr? 
OSUBADDX rü, rl, r2 :打包 的 复数 运算 0 = ri- ir? 
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REV ”党 或 半 字 的 字 节 反 转 指令 
Ф REV «cond Rd, Rm ARMv6/THUMBy3 
576 @ REV16<cond> Rd, Rm ARMv6/THUMB:»3 
D REVSH« cond Rd, Rm ARMv6/THUMBv3 
Action: 


Ф Rd[31;24] = Rm[07;00];Rd[23:16] = Rm[15:08]; 
Rd[15:08] = Rm[23;16],Rd[07,00] = Rm[31;24] 
@ Rd[31:24] = Rm[23,16]; Rd[23:16] = Rm[31.24]; 
Rd[15;08] = Rm[07;00]; Rd[07,00 ] = Rm[15;08] 
@ Rd[ 31,08] = sign-- extend(Rm[07:00]) ;Rd[07,00] = Rm[15,08] 
注释 : 
€ Rd 和 Rm 一 定 不 能 是 pc。 
‚© Thumb 状态 下 ,Rd 和 Rm 必须 在 o~r? 的 范围 内 ,不 能 指定 条 件 < 之 cond>，。 
e 这 些 指令 对 于 大 端 数据 和 小 端 数据 的 相互 转化 非常 有 用 。 


例如 : 
REV 10,00 И-НИ 









А ARM 和 Thumb 汇编 指令 


REV15 ro, rÜ ;分 别 转换 一 个 字 的 2 ok i HERR 
REVSH rü, тб ;转换 一 个 有 符号 半 字 的 字 节 排列 顺序 


RFE 从 异常 中 返回 指令 
RFE-amode- Rn! ARMv»6 


如 果 LDM 指令 允许 寄存 器 列表 为 {pc，cpsr} , 则 这 条 КЕЕ 指令 的 执行 
效果 相当 于 指令 ,LDM< amode> Rn{1l}, (рс, cpsr) АНЖЕ. 26 


ѕиоцопцец| Jejauuessy ашти рио уру V 


LDM i84. 
-一 一 
ROR Thumb 的 循环 右 移 指令 (请 参看 ARM 的 МОУ 指令 ) 

ROR Ld, Ls THUMEvi 

Action 对 cpsr 的 影响 

Ld = Ld ROR Ls[7:0] 更 新 
注释 ， 
cpsr 更 新 为 :N = <Negative2>,Z = ZZero >, C = «shift. C2» ( BL de 

А, 3) = 
А —_—_———— 
RSB 2 个 32 AERA SREE A m 

(D RSB«cond (5) Rd, Rn, # «rotated, immed- ARMyi 

© RSB«cond-(S) Rd, Rn, Rm {, «shift! АВМу1 

Action 对 cpsr 的 影响 

(D Rd = «rotated immed> — Кп ШЕТА S MEY 

0) Rd = «shifted Rm 一 Rn 如 果 指 定 了 后 绥 $, 则 更 新 

注释 ， 


e 如 果 操 作 要 更 新 сро ЖН Rd ЖЕ рс, N = «Negative» ,2Z = «Zero, 
C = <NoUnsignedOverflow >, V = < 之 SignedOverflow>>。 因 为 减法 т 
一 y 的 执行 等 价 于 加 法 x 十 ~y 十 1; 所 以 进位 位 要 这 样 设置 。 如 果 加 法 
z+—y+ 1 浊 出 , 则 进位 位 等 于 1。 这 发 生 在 zx 2 y 时 , 妈 x 一 y IE 
Hit, 

ө 如 果 Rd 是 pc, 则 指令 的 执行 将 会 影响 到 下 一 条 指令 的 执行 地 址 。 如 果 操 
EEEN cpst, 则 处 理 器 模式 -一定 变 有 一 个 spsr, B cpsr 的 值 被 设置 为 











ARM Лх ЖӨЕ 





2 spsr 的 值 。 
< e 如 果 Rn 或 者 Rm 是 pe; 则 所 使 用 的 值 为 当前 指令 的 地 址 加 上 8 字 节 。 
сл 
E 例如 : 
Ф — 
d RSB rÜ, го, #0 {0б = “rÜ 
О RSB rü, гі, rl, LSL #3 0 7srl 
Ф 
& | msc 2 个 32 位 整 型 数 的 带 借 位 的 反 向 减法 指令 
% (D RSC< cond> (S) Rd, Rn, H «rotated immed> АЕМу1 
O 9) RSC<cond> S: Ва, Rn, Rm {, «shift» ) АЕМ» 
5 Action 对 cpst ШЖ ЕИ 
Ф Ф Rd = «rotsted immed2>—Rn— (~C) 如 果 指 定 了 $, 则 更 新 
Q Rd = «shifted Rm? — Rn—(~C) 如 果 指 定 了 S, 则 更 新 
ЁЁ. 


e 如 果 操 作 要 更 新 csr Н Rd ЖЖ pe, № = < Negative, Z = ZZero, C 
= «NoUnsignedOverflow2-, V = «SignedOverflow2-, [IAE т-у 
一 一 CC BUT ETME +y 十 C, 所 以 进位 位 要 这 样 设置 。 如 果 加 
Ertop t CRE MERMET AREE x 一 y ——Co ii 
出 时 。 

e WẸ Rd E pc, 则 指令 的 执行 将 会 影响 到 下 一 条 指令 的 执行 地 址 。 如 果 操 
必要 更 新 cpsr, 则 处 理 句 模式 一 定 要 有 一 个 spsr, Н epsr 的 值 被 设置 为 
spsr 的 值 ， 

ө 如 果 Rn 或 者 Rm 是 pc; 则 所 使 用 的 慎 为 当前 指令 的 地 址 加 上 8 FH. 


如 下 的 代码 是 对 一 个 64 位 长 整 型 数 求 相反 数 ,r0 是 其 低 32 位 ,rl 是 其 
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高 32 位 。 
RSBS то, rO, #0 © = -rů C- NOT(borrow) 
RSC rl, ri, #0 rl = = rl — borrow 


SADD 分 块 并 行 加 减 运 算 指 令 


(D {SIU}ADDI cond» Rd, Rn, Rm ARMv6 
D (S|UXADDSUBX « cond Rd, Rn, Rm ARMv6 
© (SIJUISUBADDX- cond Rd, Rn, Rm ARMv6 


Ф (S|UTSUBI6- cond Rd, Rn, Rm ARMYv6 








A ARM 和 Thumb 汇编 指令 





© (SJUJ ADD8 cond Rd, Rn, Rm ЛЕМУ6 
ISI SUB8z cond Rd, Rn, Em ARMv6 
Action 对 epsr ЙЧ} ИЛ 


(D Rd[31:16/—Rn[31;16 ]--Rm[31:18]; СЕЗ = СЕ? ~ cmnCRn[ 31,16 ]. т] 31,161) 
Каі 15,00 |—Rn[15:00]-- Rm[15:00] СЕ = СЕ0 = cmn(Rn[ 15:00), Rm[15,00 |» 
@ RdE31:18]-- Rn[ 31:16] Rm[15; 00]; GE3— GE2 -cmni Rol 31.16], Rm 15:002) 
Ка 15;00]—Rn[ 15,00] —Rm(31;16j GEI—GE0— (Rn[15;00]7 -Rm[31:16]) 
D Rd[31,16]— Rn[ Rm[15,00]; GE3—GE2-- (Rn[ 31,1677» = Rm[ 15,001) 


[4v] 
к 
= 
cra 








Rd[ 15,00 ]— Rn[ 15,00]-- Rn[ 31:18] GEI —GEO— emnt Ra[15;00 ], Rm[ 31:16.) 
D Rd[31;16]—Rn[31:16]—Rm[31:16]; GES2GE2— (Rn[31,16]7» —Rm[31;16) 
Rd[15;00]- Ва [15:00] GEI- GE0— (Rn[ 15,0057 = Rmf 15,00]? 





15,00;—Rm 
© Rd[31;:24] — Rn 31,24 ]-- Rm[ 31:24]; СЕЗ = cmm(Rn[ 31,24], Rm 31; 24]) 
Rd[23:16]—Rn[23:16]-- Rm[ 23,16]; GE2— cmmtRn[ 23,16], Rm[ 23:167) 
Rd[15,08]— Rn[ 15:08 ]-- Rrm[ 15,08]; GEI 2 стт Rn[ 15,08], Rm[15;08]) 
Rd[07,00 ]— Rn[07:00]-- Rm[07;00] GEO-emmtRn[07.00 ], Rm[07.00) 


© Ка[31;24 ]= Rn[ 31:24] —Rm| 31:24]; GE3— (Ка 31,24] — Rm[31,24]) 
Rd[23:16]— Rn[ 2316]— Rm[23:16]; GE2— (Rn[ 23,16] —Rm[ 23:16) 
Rd[15.08]— Rn[15;08]—Rm[ 15:08]; GE1= CRr[15.08]7» = Rm( 15,08) 


Rd[07:00]- Rn[07,00]—Rm(07:00] GE0= (Rn[ 07,0017» — Rm[07;00]) 


注释 ; 

e 如 果 指 定 了 后 织 S$, 则 所 有 的 比较 都 是 有 符号 的 ， 郴 数 cemntz,y) 返 回 
rz — 58 (х + у> ОШ. 

e EE IW О, ДАТАН ЕР А). 函数 cmn(z ， 当 返回 
z Z (unsigned) — у) НЕ ERE z 十 y 是 否 会 产生 一 个 进位 ， 

€ Rd ,Rn 和 Rm 都 一 定 不 能 是 pc. 

e 义 操 作对 十 打包 的 复数 非常 有 用 。 下 面 的 例子 假定 [15 :00] 位 是 复数 的 实 
部 ,[31:16] 是 虚 部 。 


suouonusur Jjejquuessy сып рио фу v 
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例如 ， 
SADDI6 —— r0, rl, r2 ;有 符号 的 16 位 STMD 加 法 
SADDSUBX rü, rl, r2 рО = rl+ í xr2 
SSUBADDX rO, rl, r2 uMü-ri- x r2 


————— MÀ _ 
SBC “ 带 借 位 的 减法 指令 


(D SBC<cond>> (S) Ка, Rn, # «rotated immed-» ARMvI 











opino SJedeoleAedgd WOAS ПУ 
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ARM BASE 2 


б) SBC-cond-- (S) Ка, Rn, Rm t, «shift ARMY 
® SBE Ld, Lm THUMB»! 
Action 对 cpsr 的 影响 


(D Rd = Rn— «rotated immed2» — (C) A d E T B S NES 
© Rd = Rn— «shifted Rm -—C- C). ЩН T PS S, 则 更 新 
© Ld = Ld—-Lm- (~C) СЯ TP BS ERO 


注释 ， 

e 若 操 作 要 更 新 cpsr Н Rd RE рс, ДІ М = «Neagtive,Z = <Zero>,C 
= <NoUnsignedOverflow >, V = <SignedOverflow>, BAME + 一 y 
-~C HATER AME 十 y +С AE О ЕВЕ, Qn 
困 工 十 yy 十 ~C 洲 出 , 则 进位 位 为 1。 这 发 生 在 x 一 y 一 ~C 不 会 溢出 时 ， 

e 如 果 Rd 是 pc, 则 指令 的 计算 结果 将 会 影响 到 下 一 条 指令 的 执行 地 址 。 如 
果 操 作 要 更 新 cpsr, 则 处 理 器 模式 一 定 要 有 一 个 spsr。 这 样 cpst 的 值 被 设 
置 成 spsr 的 值 。 

e 如 果 Rn 或 者 Rm 是 pc, 则 使 用 的 值 为 当前 的 指令 地 址 加 上 8 字 节 ， 


如 下 代码 执行 了 2 个 64 位 数 的 减法 运算 ， 
SUBS r0, 70. r2 + 低位 字 的 减法 ,CC = NOTCborrow) 
SBC ri, rl, ry ;高 位 字 的 减法 和 异 位 





SEL 


根据 GE 标志 从 2 个 源 操作 数 中 进行 选择 的 指令 
SEL cond Rd, Rn, Rm ARMv6 


Action 
Rd[31.24] = GE3? —  Rn[31:24] ; Rm[ 31:24], 
Rd[23,16] = GE2? —  Rn[23,16] ; Rm[23:16]; 
Rd[i5,08] = GE1? Rn[15;08] ; Rm[15;08]; 
Rd[07,00] = GE0? Rn[07,00] ; Rm 07,00] 
TE: 


è Rd, Rn fll Rm — EA EE pc. 
Ф W,SADD 指令 中 的 cpsr 的 GE 位 的 设置 情况 。 








А АКМ Ñ Thumb 汇编 指令 





为 数据 存 取 设 兽 字 节 排 列 顺序 指令 


(D SETEND BE 
D SETEND LE 


SETEND 


ARMv6/THUMBvy3 
ARMv6/THUMBy3 


Action 
(D epsr 寄存 器 中 王 =1, 所 以 数据 按 大 端 顺序 进行 存 取 ， 
D cpsr 寄存 器 中 E=0, 所 以 数据 按 小 端 顺 序 进行 存 取 。 


ЕЖ, 

ARMv6 使 用 字 节 排 列 顺序 不 变 的 字 节 排列 模式 。 这 就 意味 着 字 节 的 装载 
和 存储 都 不 会 受 字 节 排 列 顺 序 的 配置 而 变化 ， 对 于 小 端 数据 存 取 顺序 的 字 
装载 操作 ,最 低地 址 的 字 节 是 最 低 有 效 字 节 + 对 于 大 端 数 据 存 取 顺 序 的 字 装 
载 操作 ,最低 地址 的 字 节 是 最 高 有 效 字 节 ， 





SHADD 并 行 的 除 以 2 fios Wis + 

D {S U HADD < cond Rd, Rn, Ет 
(2) {SIU HADDSUBX c cond Rd, Rn, Rm 
D {510} HSUBADDX« cond Rd, Rn, Rm 
à (S[UI HSUBI6« cond» Rd, Rn, Rm 
(D (SJU HADD8«cond» Rd, Rn, Rm 


© (S|UMHSUB8« cond Rd, Rn, Rm 


SuouonuJstu әјә QUINUE pup уму V 


ARMv6 
ARMv6 
ARMv6 
ARMv6 
ARMv6 


ARMv6 OM 


Action 





(D Rd[31; 
Rd[15; 
@) Rd[31; 
RdL15: 
@ Rd!31: 
Rd[15; 
à) Rd[ 31; 
Rd[ 15; 
б) Rd[31; 
Rd[23; 
Rd[15; 
Rd[ 07; 


16] = (Ҝа[31. 
00] — (Rn[15; 
16] = (Кп[ 31. 
00] = (Rn[ 15, 
16] = (Rn[31; 
00] = (Rn[15: 
16] = (Rn[31; 
00] = (Rn[15; 
24] = (Ец 31. 
16] = (Rn[23. 


16] + Rm[31 
00] + Rm[15 
16] + Rm[15 
00] — Rm[31 
16 一 Rm[15 


18] — Rm[31 
00] — Rm[15 
24] + Rm[31 


08] 十 Rm[ 15 
00] + Rm[07 


:16]) 
;00]) 
:00]) 
:18]) 
.00]) 
00] + Rm(31; 


16] 


:16]) 
:00]) 
:24]) 
16] + Rm[23; 


16]) 


:08]) 
:00]) 
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ARM RAA RAAE 


SMLA 
SMLS 


Rd[31,24] = (Rn[ 31:24 
Rd[ 23,16] = (Rn[23;16 
Rd[15,08] = (Rn[ 15;08 
Rd[07,00] = (Rn[07:00 


注释 ， 

e WREE THA S, 则 所 有 的 操作 都 是 有 符号 的 ,而 且 在 作 如 法 运算 之 
前 ,所 有 的 值 都 要 作 有 符号 扩充 。 

e 如 果 指 定 了 前 级 U, 则 所 有 的 操作 都 是 无 符号 的 ,而 月 在 作 加 法 运算 之 
前 ,所 有 的 值 都 要 作 0 扩充 。 

€ Rd. Rn 和 Rm 一 定 不 能 是 pc。 

e 这 些 运算 都 是 并 行进 行 的 ,所 以 都 不 能 溢出 。 这 对 于 DSP 处 理 归 一 化 信 
号 是 非常 有 用 的 。 


—Rm[31.24]) >> 
— Rm[23:16]) >> 
—Rm[15.08]) >> 
—Rm[07:00]) >> 





= — — Lm 
РА 


Ж# = BJ) 3E S Jl B 8 > 

(D SMLA «x «y «cond» Rd, Rm, Rs, Rn 上 RMv5E 
(2) SMLAW« y «cond Rd, Rm, Rs, Rn ARMY5E 
®© SMLADIX &cond» Rd, Rm, Rs, Rn ARMv6 
à SMLSD(X) «cond Rd, Rm, Rs, Rn ARMv6 


© IUISIMLAL« cond 1S) RdLo, RdHi, Rm, Rs ARMv3M 
(0 SMLAL<x><yw>=<cond> RdLo, Вані, Rm, Rs ARMYv5E 


D SMLALD1X) «cond» RdLo, Вані, Rm, Rs ARMv6 
@ SMLSLD/X) «cond» RdLo, RdHi, Rm, Rs ARMv6 
Action 

(D Rd = Rn + (Rm, «x» ж Rs <y>} 

@ Rd = Rn + (((singned)Rm x Rs, <y>) >> 18) 

( Rd = Rn + Rm. Bx «rotated Rs», B + Rm. T x «rotated, Rs». T 
@ Rd = Rn + Rm B* «rotated Rs. B — Rm, T * «rotated Rs». T 


© Вані. RdLo = RdHi:RdLo + (Rm ж Rs) 

© RdHi: Rdl.o = RdHi;RdLo + (Rm, «x» * Rm, <y>) 

D RdHi,RdLo = Вані, RdLo + Rm. B z «rotated. Rs», B + Rm, T « 
rotated Rs. T 








_ А ARM Thumb 汇编 指令 


(0 RdHi;RdLo = Вані, RdLo + Rm. В x zLrotated. Rs, B— Rm, T * 
«rotated Rs». Т 


注释 ， 

e <х>Ж$<у>п] В T. 

€ Em. В 是 (sign--extend)Rm[15:00] 的 缩写 形式 ,Rm BE 16 位 ， 

ё Rm. T ic (sign— extend) Rm[ 31; 16 IgA E SS Rm 的 高 16 位 ， 

e ШЕЯ Xl rotated R> 365 Rs ЖЕТ Ей 义 , 则 表示 
Rs ROR 16, 

e RdHi 和 Као 必须 是 不 同 的 寄存 器 。 对 于 第 5 条 指令 格式 ,Rm — ш 
5 КАНІ 和 RdLo 是 不 局 的 寄存 器 。 

e 第 1 一 4 条 指令 格式 更 新 cpsr 的 Q 标 志 位 为 ,Q 一 Q | «SignedOverflow , 

@ 对 于 第 5 条 指令 格式 ,如 果 指 定 了 前 绥 U, 则 是 无 符号 乘法 ; 若 指 定 ТИ 
S.S ЕЖЕ. 

€ 对 于 第 5 条 指令 格式 ,如 果 指 定 了 后 组 S, W cpsr 更 新 为 ;N = Ван: 
[311.7 = (RdHi==0&&RdLo==0);C 和 V 都 是 不 可 预知 的 。 因 为 
经 常会 产生 多 余 的 指令 周期 而 影响 到 其 它 指令 的 执行 ,所 以 应 避 狗 使 用 
指令 {U|S}MLALS。 

@ 因为 Rs 的 值 可 能 会 导致 运算 的 提前 中 止 执 行 ,所 以 Rs 的 值 应 尽量 小 或 
者 使 用 常数 。 

€ FER X Ki PARRE G multiply subtract) 对 于 打包 的 复数 非常 有 | 583 
用 。 下面 的 例子 候 设 bits[15 ;00] 是 复数 的 实 部 ,bits[ 31;16] 是 虚 部 ， 


> 
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例如 ， 
5МГАВВ rO, rl, r2, rÜ iT0 += (short)rl * (short)r2 
SHLAPT rÜ, rl, r2, rÜ {10 += (short)rl + ((signed)r2 >> 16) 
SMLANR rü, rl, r2, rÜ ;IÜ += (rl ж (short)r2) »» 16 


SMLATL гў, rl, r2, r3 {асс += r2 + r3, acc ж — F 64 fit ff bits[ r1;r0] 
SMLALTB — r0, rl, r2, r3 расс += ((signed)r2 >> 16) ж ((short)r3) 

EMLSD rO, rl, r2, тй {10 += real(rl * r2) 8 =Й 

SMLADX ry, rl, r2, rÜ iT0 += imag(ris r2 ЖИ 


CC 





ARM 嵌入 式 系 统 开发 





> SMMUL 有 符号 的 最 高 有 效 字 乘法 (signed most significant word multiply ) 指 令 
之 SMMLA 
ri SMMLS 
Š (DSMMUL/R)-cond Rd, Rm, Rs ARMv6 
(D SMMLA(R)«cond Ва, Rm, Rs, Rn ARMv6 
5 (à SMMLSIRi<cond> Rd, Rm, Rs. Rn ARMv6 
> Áction 
5 (D Rd = (signed) Rm * Csigned) Rs 十 round) >> 32 
^ @ Rd = (Rn << 32) + (signed) Rm * (signed) Rs 十 round) >> 32 
Q (à Rd = ((Rn << 32) — (signed) Rm * (signed) Rs + round) >> 32 
8 ER. 


e EET E К, round = 2"; И round = 0, 

e Rd,Rm, Rs 和 Rn 一 定 不 能 是 pe, 

e 可 能 会 因为 Rs 的 值 而 导致 指令 执行 的 提前 结束 。 

e 对 于 32 位 的 DSP 运算 ,这 些 操作 比 使 用 高 结果 寄存 器 (high result reg- 
ister) f) SMLAL 指令 更 有 优势 :常常 能 够 使 用 比 SMLAL 更 少 的 周期 
也 可 以 实现 会 和信 (implement rounding) $R. E R Ж1 32 位 的 结 
果 的 临时 存储 寄存 器 (草稿 板 寄存 办) 


例如 : 


SMMULR э rO, ri, r2 ;r0 = r1 x r2/2 (RJ 031 算法 
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SMUL HQ REB 


SMUA 

SMUS 
(D SMUL«x-y--«cond Rd, Rm, Rs ARMv5E 
全 SMULW<=< y><—cond> Rd. Rm, Rs ARMSv5E 
D SMUADI x) «cond Rd, Rm, Rs ARMv6 
(D SMUSD/x! «cond Rd, Rm, Rs ARMv6 
б) {UIS MULL cond >S} RdLo, RdHi, Rm, Rs ARMv3M 
Action 
о Rd = Rm. «x» * Rs. < y> 


(à Rd = (Rm x Rs, « y) >> 16 








A ARM 和 Thumb 汇编 指令 





(5 Rd = Km. В * «rotated, Rs. B + Rm. T * «rotated. Rs». T 
Rd = Rm. В * «rotated Rs», B — Rm. T * «rotated. Rs», T 
(5 RdHi: RdLo— Rm x Rs 

UE. 


e хосу иав T. 

è Rn. B 是 (sign 一 extend)Rm[15:00] 的 缩写 形式 ,是 Rm 的 低 16 位 ， 

€ Rm. 工 是 (sighn 一 extend)RmL31;00] 的 缩写 形 起 ,是 Rm 的 高 16 位 。 

e 如 果 没 有 指定 后 级 X, |< rotated Ве (96 Rs; ;否则 代表 Rs КОК 16, 

e RdHi 和 RdLo 必须 是 不 同 的 寄存 器 。 对 于 第 5 条 指令 格式 ,Rm 必须 是 
与 RdHi 和 RdLo 不 同 的 寄存 器 。 

9 第 4 条 指令 格式 更 新 epsr 的 О — Пар 为 :Q = Q|<SignedOverflow>, 

e 对 于 第 S 条 指令 裙 式 ,如 果 指定 了 前 缀 U, 则 是 无 符 叶 乘 法 ; 若 指定 了 前 
HB 5, 则 是 有 符号 乘法 。 

e 对 于 第 5 条 指令 格式 ,如 果 指 定 了 后 织 S, 则 cpsr 更 新 为 :N = RdHi 
[311,72 = (RdHi==0&&RdLo==0),C 和 VV 是 不 可 预知 的 ， 因为 经 
常会 产生 更 多 的 指令 周期 而 影响 到 其 它 指 令 的 执行 ,所 以 应 避免 使 用 指 
SUIS MULLS, 

e 可 能 会 因为 Rs 的 值 使 指令 的 执行 提前 中 止 。 所 以 Rs 应 尽 可 能 地 使 用 比 
较 小 的 值 或 者 使 用 常数 。 

e ПЯ X 和 乘 减 (multiply subtract versions) 对 于 打包 的 复数 非常 有 用 ,下 
面 的 例子 假设 bitsL15:00] 是 复数 的 实 部 ,bits[31;16] 是 虚 部 。 





"JOHROnusu| Jo(guuossy quinul рис уугу v 
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例如 ， 
SMULBB r0, rl, r2 ;IÜ = (short)ri < (short)r2 
SHULBT r0, ri, r2 {10 = (short)ri + ((signed)r2 >> 16) 
SHULWB rü, rl, r2 +10 = (rl ж (short)r2) >> 16 
SHULL rÜ, ri, r2, r3 асс = r2*r3, acc 县 一 个 64 fri [r1 r0] 
SMUADX — r0, rl, r2 ;10 = imag(rl* r2) жй 


SRS 存储 返回 状态 指令 
SRS«Camode # «mode! ARMv6 


ШЖ STM 指令 允许 寄存 器 列表 {lr，spsr | 而且 多 许 以 不 同 的 模式 调用 机 
指针 , 则 上 面 的 指令 和 STM<amode>> 5р _<тоде2> {1}, (lr; spsr} 所 要 执 
行 的 操作 一 样 。 参 看 STM 指令 。 

















> 
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Ф 
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ARM 嵌入 式 系统 开发 





SSAT 


SSUB 


STC 


把 一 个 数 饱和 至 x 位 


(D {SITU}SAT<cond»> Rd, #< п>, Rm (. LSL #<0—317>} 
®© (S|UJSAT« cond Rd, #<n>, Rm í, ASR #<1—322>) 
(à (S|U:SAT16< сопа» Rd, #< п>, Rm 

Action 对 cpsr 的 影响 


(D Rd 一 sat(<shifted_ Rm, n}; Q= Q | 1 如 果 发 生 了 饱和 

© Rd = sat( shifted Rn, 01 — Q-Q ! 1 如果 发 生 了 信和 

@ Rd[31:16] = sat(Rmi 31:16], n); Q—Q | 1 如 果 发 生 了 饱和 
Rd[15;,00] = sat(Rm[15:00], n) 


注释 : 

e WRH ETRA S M заст, nn) 狗 和 一 个 有 符号 数 xz 到 一 个 n 位 的 有 符号 
数 ,z 的 范围 是 一 2 所 x 之 2”!。 对 于 SAT 指令 ,n 的 值 为 1 十 
«immed57 XP SAT16 指令 ,2 的 值 为 十 二 imrmedd>> ， 

e ЗЕЕ ТИЯ О, Ш sat(x, п P ES Xe 到 一 个 # 位 的 无 符 
号 数 ,z W E O< z < 2°, WT SAT 指令 ,n WEA immedi >i 
T SAT16 指令 ,的 值 为 <immed4>> 。 

@ Rd 和 Rm 一 定 不 能 是 pc, 


有 符号 数 的 并 行 减 法 指令 ( 见 SADD 指令 ) 


一 个 或 多 个 32 位 字 的 协 处 理 器 数据 写 入 指令 


D STC«cond {L} <copro>, Cd, [Rn 1, t (—]«immed87 « 4}1{!} ARMv2 
D STC«Zcond- (L] сорго», Cd, [Rn], £íi—j«immed&» s4 АВМ 


D ЗТС< ота (L]copro7-, Cd, [Rn], «option АЕМ»? 
@ STEHL) «opto» , Cd, [Rn (, # (—1<immed8> x 4}}{!} АЕМ 
5) STC2(L) <сорто>, Cd, [Rn], $í—)«CimmedB8— +4 — ARMv5 
© STC2(L) <еорго2>, Cd, [Rn], «option АЕМу5 


这 些 指令 初始 化 一 个 存储 器 的 写 , 从 给 定 的 协 处 理 器 把 数据 传送 到 存储 
4&2. <copro> jË p0~p15 的 协 处 理 器 号 。 如 果 系 统 没 有 指定 的 协 处 理 器 ， 
则 将 会 产生 一 个 未 定义 指令 的 陷阱 。 存 储 器 写 是 通过 地 址 的 增加 来 访问 一 系 
列 连续 的 存储 器 单元 。 韧 始 地 址 是 通过 哨 A. 10 的 寻 址 模式 指定 的 。 协 处 理 








A ARM 和 Thumb 汇编 指令 


器 控制 着 传送 的 宇 数 ,最 大 不 超过 16 AF. iL A Cd 都 由 协 处 理 甫 解释 ， 
ARM 将 忽略 它们 。 通 常情 况 下 ,Cd 指定 了 要 传送 的 切 处理 寄 存 器 。 域 所 op- 
tion> 是 一 个 8 位 整 型 数 , 由 全 括 起 来 ,其 解释 依 顿 于 协 处 理 器 。 
如 果 地 址 不 是 4 的 倍数 , 则 地 址 访问 是 未 对 齐 的 。 对 于 未 对 齐 的 地 址 访 
问 的 限制 和 STM 一 样 ,可 以 参照 STM, 
Ж Ало STC 的 寻 址 模式 








> 
> 
= 
< 
Q 
3 
О, 
— 
F 
c 
3 
о 
> 
en 
(D 
3 
Oo 
Ф 
5 
un 
= 
С 
С) 
- 
О 
= 
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FHER 地 址 入 口 BEES Rotil 
[Ra (, f1—)immedz-]) j Ra + 计 一 yimmed2> Ва PE ERAI 
[Rn (, #{-—}<Сиптшеф >} J! Rn /d—j-idummed] Rn -+#W:.- l<immed>) 
[Rnl, #!—)<—immed> En Rn + !—1<immed2> 
[Rn], «option Rn Rn 是 受 保 护 的 
STM 把 一 组 32 位 寄存 器 的 值 写 人 存储 器 指令 
(D STM<cond ><a mode Rn{!}, «register. list» (7) ARMvI 
D STMIA Кп!, «register list7 THUMBv1 


ЖИТИЈЕ ИЛЕҢ jh Ж. «register, list» 8 () 
括 起 来 ,指定 了 一 个 要 被 存储 的 寄存 器 列表 。 虽 然 汇编 语言 允许 以 任意 的 顺 
序 在 寄存 器 列表 中 排列 寄存 器 ,它们 的 顺序 不 会 被 指令 记 下 来 ,但 是 由 于 存 587 
fib d B UJ |p) ЕЛА de US АЈ, ДЕШ ЖН ТЕ ЯНЕ ТЕУ 
增加 的 顺序 排列 寄存 器 ， 


下 面 的 伪 代 码 演 示 了 正常 情况 下 STM 的 操作 过 程 ， 在 这 里 使 用 <-reg- 
ister_list>[ 直 来 表示 寄存 器 列表 中 出 现在 第 ;个 位 置 的 寄存 器 ,下 标 从 0 开 
始 计数 。 这 里 假定 寄存 器 列表 的 寄存 器 按照 寄存 器 号 增加 的 顺序 排列 。 

Н = AARIA register list> phg A 

start = (EA A 11 中 的 最 低 访 问 地 址 

for (1=041<5Н,1++) 

memory (start + i* 4, 4) = «register list[i]; 
if GR XE! 1) then 根据 表 А.11 更 新 Rn 
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AAL STM 的 寻 址 模式 








БАН ibm 和 如果 指 定 了 “1”， 
THRA, 

É i5 s Hk Š bii ШЕЕ Rn 6548 
[IA|EA! Rn Rn 二 和 N* 4 一 4 Rn + N*£ 
(IB| FA? Rn + 4 Rn -N«4 Rn + N à 
{ПА |ЕР) Rn—N * 4 + 4 Rn Rn—N = 4 
IDE] FO} Вп—М+#4 Rn-4i Rn—N + 4 


这 里 memory(a, 4) 代 表 根 据 当 前 处 理 器 的 字 节 排列 顺序 ,从 地 址 a 开 
始 打 包 的 4 字 节 。 如 果 地 址 a 不 等 于 4 的 倍数 , 则 地 址 访问 是 没有 对 齐 的 。 
因为 对 于 没有 对 齐 的 地 址 访问 依赖 体系 结构 的 版 本 ,存储 器 系统 和 系统 协 处 
理 器 〈CP15) 的 配置 ,所 以 应 尽量 避免 不 对 齐 的 写 人 操作 。 如 果 外 部 存储 器 
系统 不 会 因为 不 对 齐 的 装载 操作 而 异常 中 止 , 则 道 常会 遵照 下 面 的 规则 ， 


e 如 果 内 核 有 一 个 系统 协 处 理 器 , 且 CP15:cl:c0:0 的 位 1 (А ЫЗ (У. 
22 (U_bit) 被 置 位 , 则 没 对 齐 的 批量 存储 器 写 人 将 会 产生 一 个 没 对 齐 的 数 
据 异 常 中 断 ， 

e 否则 ,操作 将 会 忽略 最 低 的 2 地 址 位 。 


# A. 11 列 出 了 由 之 amode>> 指 定 的 可 能 的 见 种 寻 址 模式 。 如 果 述 指定 
了 后 统 “!1”, 划 基 址 寄存 器 将 按照 表 A 11 的 方式 更 新 ;和 否则 它 是 受 保 护 的 。 


EX: 通常 时 人 惰 六 本 的 寄存 器 雪 据 怪 庆 在 蓝 低 地 址 的 存 情 器 中 


寻 址 模式 的 前 一 半分 别 代 表 IA {过 后 增加 ,Increment After) ,IB (预先 
增加 ,Inerement Before) .DA (过 后 减少 ,Decrement After) ОВ (HARP. 
Decrement Before) 。 在 增加 模式 下 ,过 后 增加 从 地 址 Rn 开始 ,预先 增加 从 地 
Ж Rn 十 4 开始 ,顺序 地 向 前 保存 寄存 器 列表 的 寄存 器 。 在 减少 模式 下 ,如 果 
采用 向 后 读 取 寄 存 器 列表 的 寄存 峪 ,并 且 按 照 存储 器 地 址 减少 的 方式 存储 数 
据 , 则 和 增加 模式 有 一 样 的 效果 。 但 是 起 始 地 址 分 别 是 过 后 减少 地 址 从 Rn 
开始 ,预先 减少 地 址 从 Rn 一 4 开始 。 

寻 址 模式 的 后 一 半 代 表 栈 的 类 型 ,是 满 栈 或 是 空 栈 , 是 升序 栈 或 是 降序 
栈 ;FD ( 满 降 序 ,Full Descending) ,ED (23 BE , Empty Descending) „РА (Wi 
升序 ,Full Ascending) „ЕА C 3E FE , Empty Ascending), В, Rn 指向 
栈 的 最 后 一 个 值 ;对 于 空 栈 , Rn 指向 栈 的 第 一 个 未 使 用 的 栈 的 位 置 。ARM 


STR 


的 栈 通常 是 满 降序 。 可 以 根据 自己 的 偏好 来 选择 使 用 满 隆 序 或 是 空 升序 ， 
STE 指令 同样 适合 这 些 寻 起 模式 ， 


HH. 


e 对 于 Thumb( 格 式 22, Rn 和 寄存 器 列表 中 的 寄存 器 必须 是 r0~r? 中 的 ， 
e 列表 中 的 寄存 器 个 数 N 必须 是 非 0 的 。 


9 Rn 不 能 是 ре, 


9 ЮЖ Rn 出 现在 寄存 器 列表 中 ,而 且 指 定 了 “1”( 回 写 ), 则 操作 如 下 ， 
@ ШЖ Rn 是 列表 中 最 低 编 号 的 寄存 器 , 则 和 保存 最 宁 的 值 ;否则 Rn 的 值 是 不 


可 预知 的 。 


@ ШЖ pc 出 现在 害 存 内 列表 中 , 则 存储 的 值 是 在 实现 时 被 指定 的 。 
e 如 困 指 定 了 ””, 则 操作 产生 了 变化 ,处 理 句 一 定 不 能 处 于 用 户 模 式 或 者 系 
统 模式 。 出 现在 寄存 器 列表 的 寄存 器 参照 寄存 器 的 用 户 模式 版 本 ,而 且 


一 定 不 能 指定 辑 写 。 


e 存储 崇 恋 取 的 时 序 依 赖 于 指令 的 执行 情况 。 在 使 用 多 字 他 存 取 指令 处 理 
IO 时 应 注意 时 序 癌 题 。 如 果 与 时 序 有 关 , 则 应 检查 存储 器 的 位 置 是 否 在 
页 表 内 。、 不 要 超出 页 表 边 界 ,而 且 不 要 让 pe 在 寄存 器 列表 中 。 


ЖШ: 
STMIA rdl, (rO, гі} 
STMDB r4l, (r0, r1) 
STMEQFD вр}, {х0, lr} 
STMFD вр, lsp)^ 


A ARM 和 Thumb 汇编 指令 





чоњи Әә бшщ pup yer. V 


р#гё = rÜ, (rd d) = rl, rd += B 
i*(rd-4) = rl, «(rd- 8) = ro rd - =B 
:if(result zero) then stack r), lr 


589 


¿store sp usr on stack sp current 


保 在 一 个 值 到 指定 的 存储 器 地 址 


(D STR«cond-( |В) ЕЯ, [Rn í, # (~—}<immedl2>>}]{!l} ARMyi 
@) STR«'cond» ( |B} Rd, Rn, {— Rm (, «imm shift») ](!) ARMv] 


@ STR<cond>{ |B) (TJRd, 
(D STR« cond { |B} {THRd, 
D STR cond» {Н} Rd, 
(B STR cond (H; Rd 
@ STR<cond>{H} Ва, 
D STR« cond tH) Rd, 
@) STR<cond>D Rd, 
© STR<cond>D Rd 


[Rn], £(—)«immedl27 ARMY1 
[Rn], (—) Rm í, <imm_shift>} АКМ] 
[Rn, f, £(—) «immed82])](!! ARMw4 


[Rn, (— IRm]( t) АКМ+4 
[Rn]. #{— i Cimmed8 ARMvá 
[Rn], (—}Rm ARMv4 


[Rn, {, #{—}<\штшед8:>}]{!) |— ARMvSE 
[Rn, (—JRmJi!) ARMv5E 
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> D STR<cond>D Rd, [Rn], # (— i —immed8> АКМУЕ 
< D STR 一 cond>>D Rd, [Rn], {—}Rm АКМУ5Е 
á B STREX« cond Rd, Rm, [Rn] ARMs6 
(D d$ STR! IBIH; Ld, Гїл, # «immed57 * <si>] THUMB 
3 (b STR{ IBI H) Ld, а, Lm] THUMBvl 
° 09 STR Ld. Lsp, # «immed&7- + 4] THUMBv1 
Š @ STR cond «type Rd, «label MACRO 
Q 
К 第 1~16 条 指令 格式 存储 单 一 的 数据 ,数据 类 型 由 操作 码 后 绷 指 定 , 使 用 
o 前 变 址 或 者 后 变 址 的 寻 址 模式 。 表 A.12 和 表 A. 13 分 别 列 出 了 不 同 的 寻 址 
也 模式 和 数据 类 型 。 
Š 表 A,12 STR 寻 址 模式 
FHEA AX MAE а а Rn ñ ik 
[Rn í, #{—}<йттей>}] Rn + fi—-)mnmed7 i Ro € [UP i 
[Rn {, #1{—}<immed>}]! Rn 十 (i) immed) Rn 十 (0 PXimmed] 
[Rn, (— Rm 1, «shift ] Rn + {— db shifted Rm Rn 受 保 护 的 
[Rn, {—}Rm (, «shift-)]! Rn + (— 1 shifted Rm Rn + |— shifted Rm 
[Rn], 4$ (--)inmed— Rn Rn + {іе 
590 
[Rn], |—] Rm (, «shift» Rn Rn + (— «shifted Rm 
X A13 STR 的 数据 类 型 
Store ENES kF Ë 操 c 
STR word 4 memory(a, 4} = Rd 
STRE unsigned Byte i memory(a, 1} = (char) Rd 
STRBT Byte Translated 1 memoryT(a, 1) = {eban Rd 
STRD Double word 8 memory(a, 4) — Rd 


memory(a-- 4, 4) = К(а+1) 
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P ALD > 
aedem koe Bow 2 

Store Jj 
So жа" _ š 
STRRX word EXelusive 1 if£IsExclusive(222 1 Q 
memory(a. 4) = Rm; Q 
Rd = Q; = 
) else Í c 
ü =} 3 
A 
STRH unsigned Halfword 2 tnemoty(a, 2) = (short? Rd D 
STERT word Translated 4 memoryT(a, 4) = Rd B 
$ 
Ж А. 13 中 ,memory(a, n) A Bb hk a 开始 ,顺序 地 存储 +n 个 字 蔬 的 数 2 
E ОТЕ ЕЖ Ка. Жаз | 
ВСАА EH memoryT(a, 四 都 遵从 特权 级 用 户 模式 要 求 。 函数。 | 车 
IsExclusive(a) 依 赖 于 地 址 a, 由 STREX 指令 调用 。 如 果 地 址 a 有 共享 TLB |3 


属性 ,而 且 地 址 а 被 标记 为 这 个 处 理 器 的 独占 访问 地 址 , 则 lsExclusive(a) 为 
真 。 然 后 清除 该 处 理 器 的 其 它 独占 访问 地 址 和 在 该 系统 下 地 址 4 在 其 它 处 理 
器 上 的 独占 访问 标志 。 如 果 а 设 有 共享 的 TLB 属性 ,而 且 这 个 处 理 器 有 一 个 
明显 的 独占 访问 , 则 IsSExclusive(e) 为 真 。 然 后 清除 所 有 这 样 的 访问 。 

如 果 地 址 a 不 是 <<size>> 的 倍数 , 则 存储 指令 是 未 对 齐 的。 因为 对 于 未 
对 齐 的 存储 操作 ,依赖 于 系统 体系 结构 的 版 本 ,存储 器 系统 和 协 处 理 髓 系统 
(CP15) 的 配置 ,所 以 应 尽量 避免 未 对 齐 的 存储 操作 。 假 定 外 部 的 存储 系统 不 
会 因为 不 对 齐 读 取 数据 而 产生 异常 中 断 , 则 通常 会 按照 如 下 的 规则 执行 。 在 
该 规则 下 ,A 是 协 处 理 器 寄存 器 CP15:cl:e0:0 的 位 1,U 是 协 处 理 器 寄存 器 
CP15:cl;c0:0 的 位 22, 这 是 在 ARMv6 下 提出 的 。 如 果 系 统 没 有 协 处 理 器 ， 
ША = U = 0, 


e 如 果 A = 1, 则 除 在 U = 1 的 字 对 齐 的 双 字 存 储 操 作 外 ,都 会 因为 不 对 齐 
的 存储 操作 而 产生 一 个 数据 对 齐 错误 的 异常 中 汤 。 | 

e WRA-ORUc- 1, 则 STR{ITIHISH} 支 持 不 对 齐 的 存储 操作 ， 
STRD 支持 字 对 齐 的 存 情 操作 ， 一 个 非 字 对 齐 Cnon-word-aligned) 的 
STRD 读 取 操作 将 会 产生 一 个 数据 对 齐 错 误 的 异常 中 断 。 | 

Ф ШКА — 0 30 U = 0,001 STR #I STRT SZ memory(a $&.—3, 4), Br 
HREP ХЕЕЕ ЖЕДЕ ИПИ JBE Ri ЭРЕН. 
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SUB 





Ж 17 条 指令 通过 由 <<label 污 指定 的 地 址 产生 一 个 和 pc 相关 的 存储 操 
fr. ib SLE UL. HARO ЗС, ПН offset = « label > — pe TE fit Bf 
内 , 则 这 条 指令 被 汇编 为 STR cond» «iype?» Ка, [pe, # «offser] . 


ЁЁ. 

e 对 于 双 字 的 存储 操作 (第 9—12 AO, Ва 必须 是 r0~rl2 的 侦 数 号 寄存 器 。 

e 如 果 寻 址 模式 更 新 了 Ro M Rd 和 Rn 一定 要 是 不 同 的 寄存 器 ， 

@ 如 果 Rd ре, < візе АЕ 4。 存储 的 值 是 在 运行 时 才能 指定 的 ， 

e 如 果 Rn 是 pc, 则 村 址 模式 一 定 不 能 更 新 Rn. Ra 的 值 等 于 当前 指令 的 地 
址 加 上 8 字 节 ， 

€ Rm 一 定 不 能 是 pe, 


Ий. 

5ТЕ ro, [=0] + (int жуг) = rà, 

STRH тб, [21], #4 зж (short #)г1 = rO;rl += 44 

STRD r2, [r1, # - 8]! jri-2B, (int «)rl = r2, + (int «(rl 

+4) = r3 

STRB го, [r2, #55] ; ж (char ж )Xr2 +55) = rÜ; 

STRB rü, [r1], -r2, LSL #8 ; = (char *)г1 = rOyrl -= 256 r2; 
32 位 数 的 减法 指 仿 
Ф SUB«cond2-(S) Rd, Rn, # «rotated immed» ARMvI 
D SUB« cond (S) Rd, Rn, Rm {, <shift>) ARMv1 
@ SUB Ld, Ln, # —<immed3> THUMEvI 
@ SUB Ld, # «immed8» THUMRBv1 
б) SUB Ld, Ln, Lm THUMRvI1 
(Š SUB sp, # —immed7> «4 THUMBv1 
Action | 对 cpsr 的 影响 


(D Rd = Rn 一 rotated_immed>> 如 果 指 定 了 后 级 S, IEEE 
@ Rd = Rn— «shifted. Rm AR ds ET EAS S, 则 更 新 


(9 Ld = Ln- «immed3- 更 新 ( 见 下 面 的 注释 ) 
(D Ld = Ln- «immed87» 更 新 ( 见 下 面 的 注释 )} 
( Ld = Ln—Lm 更 新 ( 见 下 面 的 注释 ) 


@ sp = sp— «immed77» x 4 受 保 护 的 





А ARM 和 Thumb 汇编 指令 








注释 : 

e 如 果 抬 作 要 更 新 cpsr,3Ë H. Rd 不 是 pe, Bl] N= < Negative ,Z— «Zero», 
C-—«NoUnsignedOverflow > ‚у= «SignedOverflow2-, HAME z— y 
的 执行 相当 于 加 法 z 十 一 y 十 1, 所 以 进位 位 按照 这 种 方式 来 设置 。 如 果 x 
十 ~ 十 1 洲 出 , 则 进位 位 是 1。 这 发 生 在 >y, i x 一 y 不 溢出 时 ， 

@ 如 条 Rd 是 pe, 则 这 条 指令 将 会 影响 到 下 一 条 指令 的 地 让 。 如 果 处 理 器 更 
新 cpsr, 则 处 理 器 模式 一 定 要 有 一 个 spsr, 在 这 种 情况 下 ,cpsr 的 值 按 照 


зры 来 设置 。 
€ 如 果 Ra 或 者 Rm 是 pe, 则 所 使 用 的 什 是 这 条 指令 地 址 加 8 SE S. 
例如 : 

SUBS rü, r0, #1 зго -=1, 设置 flags 

SUB rO, rl, rl, LSL #2 10 = — 3 arl 

SUBS po, ix, #4 Jump to lr- 4, set cpsr = spsr 


SW] 软 中 断 指 令 


(D SWI« cond —immed247 ARMvI 
D SWI <immed8 > ТНОМВу1 


SWI 指令 将 会 导致 ARM 进入 超 级 用 户 模式 ,执行 转移 到 SWI 向 量 。 返 
回 地址 和 cpsr 分 别 保存 在 lr sve 和 spsr_sve 中 。 处 理 器 切换 到 ARM 状态 ， 
IRQ 中 断 都 被 禁止 。SWI 向 量 地 址 是 0x00000008, 但 是 如 果 被 设置 成 高 向 量 1 593 
模式 (higbh vectors) , 则 向 量 地 址 是 0xFFFF0008。 
立即 操作 数 将 被 ARM 忽略 。 它 通常 被 SWI 异常 句柄 当 成 一 个 参数 ,用 
来 决定 采用 哪个 函数 执行 中 断 。 


йй. 


SWI 0x123456 ,ARM 工具 刑 来 实现 不 完全 主机 模式 (Semi-Hosting) 
-~ LLL 


D 
< 
O 
2 
(2, 
=j 
= 
С 
3 
еј 
A 
(D 
3 
总 
q 
5 
x 
C 
0) 
+ 
о 
m 
e 


SWP 寄存 器 和 存储 器 中 的 单字 交换 ,不 能 中 断 
(D SWP«cond Rd, Rm, | Rn] ARMv2a 
D SWP« cond-—B Rd, Rm, [Rn] ARMv2a 
Áction 


(D tempz memory(Rn, 4) ;jmemory(Rn, 4) —Rm;Rd-temp; 
{2) temp (zero extend) memory(Rn, 1) ;memory(Rn, 1) — (char) Rm; 
Rd= temp; 





opino SiedoleAeqd ULSISAS Welv 


594 


ARM BUAGNADTA 





注释 ， 

e 操作 具有 原子 性 ,它们 不 能 在 执行 过 程 中 被 打 源 。 

e Rd ,Rm 和 Rn 都 不 能 是 pc. 

e Rn Rm 必须 是 不 同 的 寄存 器 。Rn 和 Rd 必须 是 不 同 的 寄存 器 ， 

e Rn 必须 按照 存储 器 太 小 来 对 齐 。 

e 如 果 在 装载 时 发 生 一 个 数据 的 异常 , 则 存储 不 会 发 生 : 妇 果 在 存储 时 发 生 
一 个 数据 的 异常 , 则 Rd 不 会 被 写 人 。 


在 ARMv5 或 者 以 下 的 体系 结构 中 ,可 以 使 用 SWP 指令 来 执行 8 位 或 
32 位 的 信号 量 (semaphores) 操 作 。 对 于 ARMv6 ,优先 选择 使 用 LDREX 和 
STREX。 作 为 一 个 例子 ,假定 由 rl 指向 的 一 字 节 信和 号 量 寄存 器 可 以 有 和 值 
0xFF( 表 示 被 声明 ) ,或 者 0x00( 表 示 释 放 )。 接 下 来 的 例子 是 声明 锁 (claimas 
the ioek) 。 如 果 一 个 锁 已 经 被 声明 (claimed), 则 代码 循环 ,直到 一 个 中 断 或 
任务 切换 来 释放 (free)。 


MOV — rÜ, #DxEF ` гОХЕЕ, E BE BER E D IE 
Loop БЕРБ r0, r0, [r1] Lie 

СМР rü, ОХЕ ;检查 是 知已 经 被 声明 

BEQ 19р ;如 果 是 ,等 待 它 被 释放 





5ХТ 
SXTA 


字 或 半 字 的 提取 指令 或 者 字 和 半 字 的 带 累 加 的 提取 指令 


Ф {510)ХТВІ6<сопі> Rd, Rm (, ВОВ #8 + «rot»] ARM;:6 
D (STUJXTB« cond Rd, Rm (, КОЕ #8 * <rot>) ARMYv6 
@ (510) ХТН<сопі> Rd, Rm {, ROR #8 ж «rot»! АЕМУ6 
@ {5 0) ХТАВІ6<сопі> Rd, Rn, Rm {, ВОВ #8% «rot») АВМ 
© (S|UJXTAB«cond Ва, Rn, Rm {, ROR #8% <rot>) ARMvő 
© (SIUIXTAH«cond^ Rd, Rn, Rm {, ROR #8 * «rot») АЕМуб 


(D ISIU)XTB Ld, Lm THUMBv3 
@ (S|UJXTH Ld, Lm THUMBy3 
Áction 


(D Rd[ 31,16] = extend( shifted Rm2[23:16]); 
Rd[ 15,00] = extend(«shifted Rm7»107,00]) 

© Rd = extend( «shifted Rm»[07,00]) 

@ Rd = extend(<shifted_Rm>[15;00 1 
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Ф Rd[31,16] = Rn[31;16] + extend(< shifted_Rm [23:16 ; 
Rd[15,00] = Rn[15,00] 十 extend( —shited_Rm> [07:00] 

© Rd = Rn + extend(<shifted Rm2>[07.: 00 ]) 

@ Rd = Rn 十 extend(< shifted Rm>[15;00) 

(D Ld = extend(Lm[07,00]) 

(@ Ld = extend(Lm[ 15,00] 


注释 ， 

e und S. extend OERE E +. 
e 如 果 指 定 前 缀 U, 则 extend(>)0 扩展 x. 

e Rd 和 Rm 都 不 能 是 pc. 

Ф —rot> E — 8 0-3 的 立即 数 ， 





SUOIIOnilSUi Ussy GOINUL pub Way v 


ТЕО 测试 2 个 32 位 数 是 否 相等 
(D TEQ= cond> Rn, # «rotated immed> ARMv1 
D TEQ« cond Rn, Rm (, «shift»? ARMvI 
Action 


(D 根据 (Rn ^ «rotated, Rm ) 的 结果 设置 cpsr。 

D 根据 (Rn “< 之 shifted_Rm>) 的 结果 设置 cpsr。 

ER. 

Ф cpsr 更 新 为 :N = <Neagtive>,Z = «Zero,C = «shifter C» (Ils 
À.3), 

€ ШЖ. Rn 或 者 Rm 是 pc, 则 所 用 到 的 值 等 于 当前 指令 的 地 址 加 上 8 字 节 ， 

e 如 果 想 检查 2 个 数 是 否 相等 ,而 不 想 影响 到 进位 位 , 则 可 以 使 用 该 指令 来 
代替 СМР 指令 。 

例如 ， 

TED ro, {1 test to see if r0 == 1 


— — M MÀ—MÀM—— LLL 
TST 测试 位 


(D TST«cond? Rn, H «rotated immed> ARMvI 
(à TST«cond Ва, Rm {, «shift»! АВМ» 
б) TST Ln, Lm THUNMBv1 
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Action 

(D Ж (Еп & «rotated immed 2 Bg (8 i E cpsr, 
D 根据 (Rn & shifted Клас») ffi W cpsr. 

@ 根据 (Ln & Lm) 的 值 设 置 cpsr， 


ВЖ: 

€ cpsr 更 新 为 :N = «Negative ^,Z = «Zero,C = «shifter. C» (B dE 
А, 3), 

e 如 果 Rn 或 者 Rm 是 bc,' 则 所 使 用 的 值 是 当前 指令 地 址 加 上 8 字 节 。 

e 使 用 该 指令 来 测试 所 选择 的 位 是 否 都 是 0。 


piu. 
TST rü, #0xFF Ni го 的 低 8 位 是 否 都 是 0 





UADD 无 符号 数 的 分 块 并 行 加 法 指令 ( 见 SADD) 





UHADD 无 符号 数 的 除 以 2 加 减 运 算 指 令 ( 见 SHADD) 
UHSUB 





UMAAL AXES E mE | 


ОМААІ < cond RdLo, Вані, Rm, Rs ARMv6 
Action 

RdHi: RdLo = (unsigned) Rm * Rs + Cunsigned) RdLo + (unsigned) RdHi 
注释 : 


e RdHi 和 RdLo 必须 是 不 同 的 寄存 器 。 
© RdHi,RdLo,Rm,Rs 都 不 能 是 pe, 
e 因为 (2 一 1) (2 一 1) 十 (23 一 1) 十 (2 一 1) 一 (2 一 ]), 所 以 操作 是 不 
会 洲 出 的 。 可 以 在 公 钥 密码 系统 中 使 用 它 来 合成 多 个 字 的 对 法 运算 ， 
一 一 _———Є. 


UMLAL 无 符号 的 long Ж 322 303 RMEL SMLAL 30 SMULL) 
UMULL 


———————M—————M—— 9M RA. 
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UQADD 愧 和 的 无 符号 加 减 运算 指令 ( 见 QADDO 
UQSUB 


USAD 无 符号 数 差 分 的 绝对 值 求 和 指令 


(D USAD8<cond> Rd, Rm, Rs ARMv6 
®© USADA8« cond,» Rd, Rm, Rs, Rn ARMv6 


Áction 

(D Rd = abs(Rm[31:24]— Rs( 31:24) + abs(Rm[ 23:18] - Rs( 23:16.) 
-Fabs(Rm[ 15.08 ] —Rs[ 15.08] 
+ abs(tRm[07;00] — Rs[07:00}) 

© Rd = Rn + ebs(Rm[31;:24]—Rs[31:24]) + abs(Rm[23:16] 
— Rs[23:16 D 十 abscRm[15:08] — Rs[15:08]) + absCRm[07,00]— Rs 
[07,00 


EB. 

€ abstz) 返 回 工 的 绝对 值 。Rm 和 Rs 定 当 作 无 符号 数 处 理 。 

е Rd, Rm 和 Rs 不 能 是 pc。 

e 因为 在 视频 编码 中 提供 了 一 种 衡量 标准 来 衡量 2 幅 图 片 的 相似 程度 ,所 
以 这 种 差分 的 绝对 值 求 和 运算 在 视频 编码 中 是 非常 普遍 的 ， 
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USAT 无 符号 数 的 饱和 指 邻 ( 见 SSAT 指令 ) 





USUB 无 符号 数 的 分 块 并 行 减法 指令 ( 见 SADD 指令 ) 





UXT 无 符号 数 的 提取 和 带 累 加 的 无 符号 数 提取 指令 ( 见 SXT 指令 ) 
UXTA 





A.4 ARM 汇编 速 查 





本 节 概 要 地 列 出 由 ARM 汇编 器 armasm 提供 的 更 有 用 的 命令 行 和 表达 式 。 每 一 


个 汇编 行 都 以 如 下 的 格式 给 出 : 
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i labe] {< instruction > j EE 
(symbol) “directive > ;注释 
( arg 07) < macro («arg l>} {, Sarg 275) ++{, marg п>} ;注释 
IH. 


Ф —nstruction> 要 汇编 的 处 理 器 所 支持 的 所 有 的 ARM Bk Thumb 394. JA 3 ў. 
ө abe 一 个 用 于 存储 夷 令 地 址 的 符号 名。 

Ф «direttive ^ 一 个 上 RM 汇编 保留 字 。 见 A, 4, 4 小节， 

Ф symbol «directive BF fE H Bg S. 

Ф —macro> 使 用 MACRO 保留 字 的 一 个 新 的 保留 字 定义 名 。 

e arg k> 第 上 个 宏 参 数 ， 


必须 在 任何 ARM 或 Thumb 指令 出 现 之 前 ,用 一 个 AREA 保留 字 定 义 一 个 范围 。 所 
有 汇编 文件 必须 用 END 保留 字 表 示 结 束 。 下 面 的 例子 演示 了 一 个 简单 的 汇编 文件 , 它 定 
义 了 一 个 返回 2 个 输入 参数 和 的 加 法 函数 。 


AREA maths rautines,CODE, READONLY 

EXPORT add ; 给 出 一 个 加 法 学 部 联结 的 标号 
add ADD г), r0, ri ;输入 参数 相 加 

MOV рс, lr ;从 子 程序 返回 

END 


А.4.1 ARM 汇编 变量 


ARM 汇编 器 支持 3 种 类 型 的 汇编 变量 ( 见 表 A, 14) 。 变 量 名 是 区 分 大 小 写 的 ， ШЕР 
须 在 使 用 前 用 保留 字 GBLx 8E LCLx 进行 声明 ， 


囊 4,14 ARM 汇编 变量 类 型 





MB — 4 K 5 


ЕЕ 全 局 声明 GRIE 设置 变量 性 + 1k 
ХЕ 3200689 СВА LCLA SETA 15, Oxab 
ASCH 字符 串 GBLS LCLS SETS "", "ADD" 
FATA GBLL LCLL ЗЕТІ. {TRUE}, 


FALSE} 
——_—oq. — v ——."O" P  - Ü cA. mMM 
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可 以 在 表达 式 中 使 用 变量 ( 见 А. 4,2 小节 ), 也 可 以 使 用 $ 操作 符 在 汇 缩 时 代替 变量 。 | 了 
通常 ，$ name. 被 替换 为 在 该 行 汇编 之 前 name 变量 的 值 。 如 果 nme 后 面 设 有 眼 着 字母 、 | 六 
数字 或 下 划 线 , 则 可 以 省 略 最 后 的 名 点。 使 用 $ $ 来 表示 符号 $ 。 算 术 变量 被 普 换 为 一 个 |S 
扩展 为 & 位 十 六 进 制 阿拉 伯 数 字 的 字符 中 ， 还 辑 变 量 由 工 或 下 替换. a 

下 而 的 示例 代码 演示 了 如 何 声明 和 蔡 换 各 种 类 型 的 变量 ， = 

;算术 变量 S 
GBLA count A iE count O 
coumt SETA 1 ВВ count = 1 > 
WHILE count 15 (5 
BL test $count call  testo0000001,testO00000002--- j 
count SETA count + 1 i Ltest0000000EF z 
WEND 二 
A 
FARER © 
GBLS cc LIED ТА сс = 
сс SETS "NE" SEN ce = "NE" di 
ADD $cc гб,гб.гб ОСЗ  ADDNE тй,гб,гО 
STR$cc.B — rO,[ri] ;汇编 成 STRNEB  rO.[r1] 
;逻辑 变量 
GBLL debug :声明 一 个 逻辑 变量 debug 599 
debug ЕТ - [TRUE] ;设置 debug = {ТЕШЕ} 
IF debug + if debug is TRUE then 
BL print debug ;print out some debug information 
ENDIF 


А.4.2 ARM 汇编 标注 


一 个 标注 的 定义 必须 在 一 行 的 顶 烙 书写 。 汇 编 器 把 所 有 不 项 格 的 语句 当成 指令 .保留 
子 或 宏 。 汇 纺 器 把 格式 为 <<N><name>> 的 标注 当成 本 地 标注 ,其 中 <N> 是 一 个 0 一 99 
的 整数 ,<name 疡 是 一 个 文本 中 可 选 的 名 字 。 本 地 标注 由 ROUT 关键 字 限 定 范围 。 通 
(ЕВ) {1AIT}<N>{<naeme>) 来 引用 一 个 本 地 标注 。 额 外 的 前 缀 字母 告诉 汇编 
器 如 何 去 查 找 这 个 标注 ， 

e 如 果 指 定 了 前 统 下 , 则 汇编 器 向 前 查找 ;如 果 指 定 了 前 级 B, 则 汇编 器 向 后 查找 。 否 

则 汇编 器 先 向 后 再 向 前 查找 。 | 
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e 如 果 指 定 了 前 绎 本, 则 汇编 器 只 查找 当前 的 宏 ;如 果 指 定 了 前 纺 A. NL 3045 # DEPT 
有 级 别 的 宏 。 否 则 汇编 器 先 查 找 当 前 的 宏 , 肯 查找 更 高 级 别 的 诬 套 层 的 宏 。 


: STR , А, 
: STR; L 


А << В, 
А i НІ, B 


À »» B, 
A; SHR.B 


A ВОВ, B 
А; ВО. B 


А=В,АУ>В, 
А> = В, А < 
В,А< = В, 
А/=В,А< >В 


A;¿AND:R, 
А‹ОВ:В, 
A,EOR,;B, 
: NOT LÀ 


LENS 


SiLEFT,B, 
S: RIGHT,B 





A.4.3 ARM 汇编 表达 式 





ARM їе УТИ СЕО АРНОО АОК, Ж AL 15 Ж 
出 了 表达 式 可 以 使 用 的 一 些 一 目 和 二 目的 操作 运算 。 括 号 可 以 用 来 改变 运算 顺序 。 


Ж А.15 ARM 一 目 和 二 目 汇编 操作 码 


& Ж 





AMB, AXB 
ARI B, A В 
A B 358 

AREA ASIE 

X Й ASCH Ri 

和 或 者 工 转 化 为 一 个 字符 赴 


Af B 
AHB BIGEBIH 


AMHARE B f 


算术 或 者 字符 中 变量 比较 (7 一 和 <<>> 
都 是 不 等 的 意思 ) 


ANB S" n REA 
KRURA | 


TH S j K E 
5 的 最 左 或 最 右 B 位 字母 





Wo 

1—2 = oxftfttfff 
2«3—86,7/3—2 

T: MOD 3 = 1 

í CHR: 32 = " " 

a = 05х61 

: STR, 32= "00000020" 
: STR; {TRUE} = "T^ 


le J= 


0х80000000 >> 4 = Oxü8000000 


1; ROR.1—60x80000000 
0x80000000; ROL.1—1 


(122) = (FALSE), 
(1«2) = (TRUE), 
("a"="e") = (FALSE), 
("a*«"c") = (TRUE) 


1: AND. 3 = 1 
1:08,3 = 3 
:NOT:0 = ОХИН 


ILEN, "ABC" = 3 


"АВС".ТЕРТ,2 = "AB", 
"ABC".RIGHT,2 = "ВС" 


COC 
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ix A.15 
Жі 站 X H + 
S,CC,T Зате IEEE "АВ", СС, "C" = "АВС" 
LILAND, M, LA м" nmn {TRUE}: LAND; {FALSE} = 
L:LOR;M, IFALSE! 
L;LEOR;M 
:DEF,X МЕТЕ ХЕ X Ph). WE IS X 
:ВАЅЕ, А 见 MAP 关键 字 
INDEX: À 





在 表 A.15 中 ,A 和 了 3 代表 任意 的 整 班 数 ;S 和 T 代表 字符 申 记 和 M 代表 你 辑 值 。 在 
很 多 表达 式 中 ,可 以 使 用 标注 和 其 它 标号 代替 整 型 数 ， 
MENTE 
ЖА 16 列 出 了 可 以 在 表达 式 中 出 现 的 特殊 的 变量 。 它 们 都 是 汇编 器 预定 义 的 变量 ， 
不 能 被 重复 定义 。 . 
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$34.16 BOEXXA 


* X 1k 





{АКСНІТЕСЏВЕ} CPU 的 ARM 体系 结构 ("4 了 "为 ARMATO 

{ARMASM_VERSION} 编译 器 版 本 号 601 
{CONFIG} or (CODESIZE! МЕНО САЕМ 状态 32 (ir, Thumb 状态 16 位 ) 

(CPU! 被 编译 CPU 的 名 字 

{ENDIAN} TB BERUR TE OCK RO big m little 

(INTER) ШЖ ARM/Thumb ЕА, ТЕЧЕ) 

(PC) СА.) 当前 被 编译 指令 的 地 址 

{ROPI} , (RWPT) ШЖ resd-only/read-vrrite 位 置 独 立 , 则 为 TRUE) 

(VAR) Oi @) MAP ir SEC, MAP RAF) 





A.4.4 ARM 汇编 保留 字 


下 面 是 一 个 按照 字母 排列 顺序 给 出 的 更 普通 armasm 保留 字 列表 。 
ALIGN 


ALIGN {< expression > («offset»)! 
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把 下 一 条 指令 的 她 址 对 齐 到 q* expression > J-«Caffset7 Ф. 因为 对 齐 情况 依赖 于 
ELF 段 的 开始 情况 ,所 以 它 必须 在 适当 的 地 方 对 章 ( 见 AREA RHF) «expression > Ë 
TR 2RR RAEE 4. I NUR HERE offset JU offset 2 А O, 

AREA ` 

AREA «section» (,-cattr 12) [Сабт 27») |, attr К>) 

开户 一 个 名 为 <<section > 的 新 的 代码 段 或 数据 段 。 d A.17 列 出 了 可 能 的 属性 ， 

$34.17 AREA 属性 


-一 





® 性 + Я 
АСМ «expression» ELF @ ЖД Ж 2mm Р 
ASSOC-- < sectionname > питав Ев, ЕЕЕ < весПоппате Bt 
CODE ав SIB ER HB UE 
DATA ЛЕ УЖЕ ВИ BREED 
NOINIT AeA p Sul ya 
READONLY x^ BEBE 
READWRITE 这 个 自 是 可 读 / 写 的 
ASSERT 


ASSERT  —logical-expressionz> 

汇编 时 断言 (assert) 。 如 果 座 辑 表达 式 为 假 , 则 汇编 以 一 个 错误 中 止 。 

CN 

— name CN «numeric - expression 

为 一 个 协 处 理 器 的 害 存 器 <<numeric-expression> 设 置 一 个 别名 为 name>>。 


СОрЕ16,СОРЕЗ2 
CODE16 指示 汇编 器 把 下 面 的 指令 汇编 成 16 位 Thumb 指令 。CODE32 指示 汇编 成 
32 位 的 ARM 指令 (Carmasm 默认 为 32 BD. 


CP 
< name СР < numeric 一 expression» 


为 -个 协 处 理 器 numeric-expression>> 设 置 一 个 别名 为 <name>>。 
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DATA 
<label DATA 


DATA 保留 字 指出 标注 label 所 指向 的 是 数据 而 不 是 代码 。 在 Thumb 模式 下 ,这 可 以 


防止 连接 器 设置 label 的 最 低位 。 函 数 指针 或 者 代码 标注 的 位 0 对 于 ARM 代码 是 0, 对 于 
Thumb 代码 是 109, ВХ 185), 


DCB.DCD(U; ,DCLDCQLU} .DCW(U) 
这 些 保留 字 接 照 表 A. 18 分 配 一 个 或 几 个 字 节 的 存储 器 单元 ， 每 一 个 保留 字 后 面 都 是 


一 个 以 这 号 友 开 的 初始 化 值 的 列表 。 如 果 指 定 了 后 缀 U, 则 汇编 器 不 会 做 任何 的 对 齐 填充 。 


表 A,18 ЕШЫШТЕ 





ux я 名 数据 大 小 /季节 An ih ie dÈ 
DB -= —— 1 ордун 

DCW 2 16 位 壹 型 数 : 对 章 到 2 +1) 

DCD & 4 32 位 整 型 数 (对 齐 到 4 字 节 )》 

DCQ 8 64 位 整 型 数 ( 对 齐 到 4 тә 

DCI 2 或 4 整 型 定义 一 个 ARM 或 Thumb 指令 
例如 ， 
bello MB "Һе119",0 
powers DD — 1,2,4,8,10,0x20, 0x40, 0x80 


DCI OxEADDODOD 


ELSE {别名 |} 

# IF, 

END 

这 个 保留 字 必 须 出 现在 一 个 源 文件 的 末尾 .汇编 器 铂 略 在 END 保留 字 后 面 的 内 容 ， 
ENDFUNC[ 别 名 ENDP) ,ENDIEF{( 别 名 ]) | 

分 别 参 见 FUNCTION 和 IF, 

ENTRY 

这 个 保留 字 为 连接 器 指定 了 程序 的 人 口 点 。 这 个 人 口 点 通常 被 包 人 在 ARM 的 C 


к 
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EQU{ 别 名 +) 


< name EQU < numeric - expression > 


这 个 保留 字 和 上 中 的 define 很 类 伏 。 它 定义 一 个 标 导 < 近 name>> f CR X E X. 
这 些 值 不 能 被 重复 定义 。 参 看 A.4.1 小 节 中 关于 可 重复 定 尽 变 鲁 的 使 用 。 


EXPORTI( 别 名 GLOBAL) 


EXPORT < symbol ([WEAK]) 


使 用 EXPORT 声明 一 个 全 局 标号 ,可 被 其 它 目 标 文 件 和 库 文 件 连接 引用 。 如 果 不 使 
用 这 个 命令 , 则 汇编 标号 只 是 这 个 目标 文件 的 局 部 标号 。 可 选项 后 缀 [LWEAK ] 暗 示 在 使 用 
这 个 标号 之 前 ,要 测试 和 解决 其 它 实 例 引用 这 个 标号 。 


EXTERN, IMPORT 


EXTERN << symbol > i [WEAK] } 
IMPORT < symbol ([ WEAK |) 


2 个 保留 字 都 是 声明 一 个 在 其 它 目标 文件 或 库 中 定义 的 外 部 标号 名 。 要 使 用 该 标号 ， 
连接 器 会 在 连接 时 解释 它 。 对 于 IMPORT, 即 使 没有 使 用 到 该 标 导 ,连接 器 也 要 解释 它 ;对 
T EXTERN ,只 有 在 使 用 到 这 个 标号 时 ,连接 器 才 会 解释 它 。 如 果 声 明 标 号 时 将 有 可 选项 
[WEAK], 则 即使 连接 器 在 连接 处 理 时 不 能 解释 该 标号 也 不 会 报错 ,而 是 把 该 标号 的 值 设 
为 0， 

FIELD( 别 名 i) 

参考 МАР, 


FUNCTION({ 别 名 PROC) 81 ENDFUNC( HÈ ENDP] 

FUNCTION # ENDFUNC 保留 字 分 别 标 记 一 个 ATPCS—— compliat 函数 的 开始 和 
结束 。 它 们 的 主要 用 途 是 改进 调试 的 范围 ,在 调试 时 可 以 将 函数 的 调用 进行 回 退 , 即 返回 到 
晴 数 调用 前 的 状态 。 这 也 使 性 能 分 析 器 能 够 更 加 精确 地 分 析出 汇编 沙 数 的 性 能 。 必 须 在 
FUNCTION 保留 字 前 面 给 出 ATPCSCARM Thumb Procedure Call Standard) MAZ, 
例如 : 

sub FUNCTION 

SUB rü, rü, rl 
MOV pe, lr 
ENDFUNC 


GBLA,GBLL,GBLS 
分 别 用 于 全 局 的 竺 术 变 量 . 逮 辑 变量 .字符 申 变量 的 定义 。 参 看 A.4, 1 小 节 。 
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GET 
MW, INCLUDE, 


GLOBAL 
М, ЕХРОКТ, 


IF(3l £[ ) , ELSE( Ж | ), ENDIF( 3) 3 ]) 
pU fi КТЕН ЖЕР. IR СЕНИ Hif F else, Я endif, ТРИЯ 
留 字 后 面 跟随 着 一 个 逻辑 表达 式 。ELSE 保留 字 可 以 省 略 。 例 如 ， 


IF ARCHITECTURE = "5ТЕ" 
SMULBB rü, ri, rl 
ELSE 
MUT, rü, rl, ri 
ENDIF 


IMPORT 
见 EXTERN, 


suoionJsur JƏ|Quuessv quanu| рио ру v 


INCBIN 
INCBIN —— «filename 


这 个 保留 字 在 汇编 程序 中 的 当前 位 置 原封 不 动 地 把 二 进 制 文件 二 filename> 包 含 到 当 
前 文件 中 ,例如 ,INCBIN table. dat, 


INCLUDE( 3] GET) 
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INCLUDE filename 


使 用 这 个 保留 字 来 包含 其 它 的 汇编 文件 。 这 和 上 HH H include 命令 类 似 。 例 如 ,IN- 
CLUDE header, h, 


INFO( 3I 2!) 
INFO «numeric expression-,« string expression.» 


Jn JR numeric, expression2-3E 0, ЖС 88382 LA — < string expression > pjg i Ж 
中 止 : 否 则 汇编 器 将 会 以 二 string_expression2> 输 出 消息 ， 


КЕЕР 
KEEF {< symbolo) 
BR EO, P ,汇编 器 在 虽 标 文件 中 只 包含 全 局 标号 ( 见 EXPORT) ,而 不 包含 局 部 标号 ， 
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使 用 KEEP 来 包含 所 有 的 局 部 标号 或 一 个 指定 的 局 部 标号 。 这 对 调试 很 有 帮助 。 


LCLA.LCLL.LCLS | 
这 些 保 留 字 分 别 声 明 一 个 宏 的 局 部 算术 变量 ,局 部 逻辑 变量 和 局 部 字符 申 变 量 。 参 看 
A, A. 1 小节。 


LTORG 

使 用 LTORG 插入 一 个 文字 池 。 汇 编 器 使 用 文字 池 来 存储 出 现在 LDR Ва, — «value 
指令 中 的 常数 。 见 LDR 的 第 19 条 指令 格式 。 通 常 汇编 器 会 在 程序 的 末尾 自动 插 人 一 个 文 
字 池 ,但 是 如 果 一 个 程序 太 大 , 则 LDR 指令 不 能 通过 pc ЖЖ s AE (рс - relative address- 
ing) 访 问 该 文字 池 ,这 时 就 需要 在 LDR 指令 附近 人 为 地 插 人 一 个 文字 池 。 


MACRO, MEXIT, MEND 
使 用 这 些 保留 字 来 声明 一 个 新 的 汇编 宏 或 者 伪 措 令 。 它 的 语法 结构 为 : 


MACRO 

{$ «arg 07) — «macro name {$ «arg i>}, $ «am i» P$ аго k>} 
«macro code > | 
MEND 


宏 参 数 被 保存 在 是 变量 (dummy variables) $ «arg iB, Wn s S HE GS BECA 
个 参数 , 则 该 参数 被 设置 成 空 哩 。MEXIT 保留 字 用 于 提前 结束 宏 ,这 在 IF 语句 后 比较 党 
见 。 例 如 ,下 面 的 安定 义 了 一 个 新 揭 伪 指令 SMUL ,如果 是 ARMv5TE 处 理 器 , 则 进行 一 个 
SMULBB 的 运算 ;否则 进行 MUL 运算 。 


MACRO 
$ label SMUL $a, $b, $c 
IF (ARCHITECTURE) = "5TE" 
$ labei SMUBB ба, $b, $c 
. MEXIT 
ENDIF 
$ label MUL $a, $b, 5с 
KEND 


MA4AP[ 别 各“^) ,FIBLDI 别 名 it) 
这 些 保 留 字 定 义 一 些 类 似 于 C 语言 中 的 结构 体 的 对 象 。MAP WEST EB EN 
地 或 者 偏 移 地 址 ,FIELD 定义 结构 体 的 每 个 元 素 。 语 法 结构 如 下 ， 


MRP «base |, «base register] 
name FIELD «field size in bytes 
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МАР 保留 字 设 置 专门 的 汇编 器 内 置 变 量 {1VAR } 为 结构 体 的 首 地 址 。 它 的 值 为 所 base> 
ТЕЕ S BJ < base, register» + «base, 8—1 FIELD REFERE name 
的 值 为 VAR 的 值 , 然 后 按照 指定 的 字 节 数 增加 VAR ШИН. ЯР АЛЕ ЩУКИН, Б АД: 
INDEX: <name> $: BASE: <name> 分 别 返 回 这 个 元 剖 相 对 于 基 址 寄存 器 的 仿 移 量 种 
基 址 寄存 器 的 编号 。 

实际 上 使 用 之 base_register 沁 格式 并 不 是 很 有 用 。 可 以 使 用 普通 格式 ,然后 在 指令 中 
清楚 地 指定 基 址 寄存 器 。 这 样 可 以 很 方便 地 指向 具有 相同 的 数据 类 型 ,不 同 基 址 寄存 器 的 
结构 体 。 下面 的 例子 在 堆栈 上 建立 一 个 具有 2 个 整 型 变 其 的 结构 体 ， 


мар 0 ;结构 体 元 素 偏 移 量 为 0 
count FIELD 4 ;定义 整 型 变量 count 
type FIELD 4 ;定义 整 型 变量 type 
size FIELD 0 ;记录 结构 大 小 


SUB зр, sp, еме ;在 堆栈 里 分 配 空间 
MOV rÜ, #0 

STR тб, [вр, Heount] ;count ## 0 

STR rü,[sp, Ё уре] itype 清 0 


SUOILOrNISU[ 1ƏJCILL1SSSWV quint puo Аму v 


NOFP f 

WW {ЖЕ ЕЕ ЕТЕТ NXM ИДЕЙ. Wr ИЖЕ kW Wi Tue 
留 字 。 

ОРТ 

XT IEEE H armasm 的 一 list 选项 的 格式 ， 半 为 现在 可 以 提供 狂 代 码 级 的 调试 ,所 
以 很 少 使 用 它 了 。 参 看 armasm 文档 。 

PROC 

见 FUNCTION, 
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RLIST, RN 

< nane > RN <їпишег1с expression? 

—name^ REST «HB ЖЕП АВИ 寄存 器 列表 >> 

这 2 个 保留 字 为 一 系列 的 ARM 寄存 器 或 一 个 ARM 寄存 器 命名 。 例 如, 下面 的 代码 
A BE 70 命名 为 arg; 把 在 ATPCS 下 受 保护 的 寄存 器 命名 为 saved， 


arg RN 0 
Saved RLIST (r4-ril) 
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ROUT 

这 个 保留 字 定 义 一 个 新 的 忆 部 标号 使 用 范围 。 见 A, 2,2 小 节 。 

SETA ,SETL ,SETS 

这 些 保 留 字 分 别 设 置 算术 变量 ,. 逮 辑 变量 和 字符 串 变 量 的 值 ， 见 A.4. 1 小节。 

SPACE(53i & %) 

[label] SPACE «numeric expression 

ЖА ЖН SE Я BO — Et < numeric, expression >> 字 节 的 内 存单 元 。 所 有 字 节 都 初始 化 
为 0， 

WHILE,WEND 

这 2 个 保留 字 提 供 一 段 汇编 时 的 循环 。 WHILE Jg iE 35 — 1 3B dH ОКА. MOX UK 


达 式 为 真 时 ,汇编 器 要 重复 汇编 在 WHILE 和 WEND 段 的 代码 。 下 面 的 例子 演示 了 如 何 创 
建 一 个 是 1 一 65 536 的 2 ЖШ. 


GBLA count 
count БЕТА 1 
WHILE count« = 65536 
DCD count 
count SETA 2 x count 
WEND 


A S GNU 汇编 快速 查询 





本 节 概要 地 列 出 当 以 GNU 汇编 器 ,gas 作为 ARM 汇编 器 时 ,更 有 用 的 命令 行 和 表达 
式 。 每 一 个 汇编 行 都 以 如 下 的 格式 给 出 ， 


(label) (84 A E E) © 注释 


不 像 ARM 汇编 器 需要 对 指令 和 保留 字 缩 排 。 标号 是 通过 后 面 有 一 个 冒号 而 不 是 在 一 
行 的 行 首 来 识别 的 。 下 面 的 例子 演示 了 一 个 简单 的 汇编 文件 , 它 定义 了 一 个 返回 为 2 个 输 
. Section „text, "x" 


. global add @ 给 出 外 部 连接 的 add 5 








add 1 


ADD го, ro, rl Q 输 和 人 参数 相 加 
MOV pe, lr @ 从 于 函数 返回 
GNU 汇编 保留 字 


下 面 是 一 个 按照 字母 排列 顺序 给 出 的 通用 gas REFIK., 


„ascii “<string>” 
把 string 当成 数据 插 人 汇编 中 ,和 armasm 的 DCB 类 似 。 
„asciz “<string>” 
类 似 . aseii, 但 在 每 个 字符 申 后 面 跟 一 个 零 字 节 ， 
.balign «power of 27^ |, «fill value |, «max padding» jj 
X ЗЕН Sl power of 27 7E 35. ИЯ Д IL fll value 37 5 нй RAE 
齐 ， 如 果 需 要 填充 的 字 节 数 大 于 < max padding> , 则 对 齐 不 会 发 生 。 
„byte —Dbytel> {, «byte27» ] 
把 一 系列 字 节 当成 数据 插入 汇编 ,和 armasm 的 DCB 类似 ， 
.code —number_of_bits> 
按 bit 位 设置 指令 的 长 度 。16 位 是 Thumb,32 位 是 ARM。 这 和 armasm 的 CODE16 
和 CODE32 354] , 


, else 


УТЕ. i£ RI. endif 之 间 。 和 armasm 的 ELSE 类 羽 。 


. end 
标记 一 个 汇编 文件 的 结束 。 这 个 通常 被 省 略 掉 。 
‚ endif 


标志 着 条 性 汇编 代码 块 的 结束 。 见 , if, ifdef,. ifndef, ER armasm 的 ENDIF ЖИ, 


. endm 
结束 一 个 安定 义 。 见 . macro, CH armasm 的 MEND 类 似 ， 


,emdr 


结束 一 个 循环 ， 见 , rept 和 .irp。 它 和 armasm 的 WEND 类 似 。 
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„egu < symbol name, —valae> 
设置 一 个 标号 (symbol 的 值 ， 它 和 armasm 的 EQU 类 似 ， 





, erT 


以 一 个 错误 导致 汇编 的 结束 。 
‚ exitm 
ЭҢ ЖЕ Y Pere ЕНЕ HE. I. macro, ÈA armasm 的 MEXIT Ж), 
.global «symbol | 
给 标号 (symbol) 一 个 外 部 连接 。 它 和 armasm 的 EXPORT 241, 
.hword <Zshortl>{, < вһогі22>) 
把 一 系列 的 16 位 数 当 成 数据 插入 汇编 ,和 armasm 的 DCW ЖН, 
„if <dogical_expression > 
EXTRAER LL. endif 结束 。 它 和 armasm 的 ТЕ Ы, 
„ifdef <symbol>> 
如 果 <symbol> 是 定义 了 的 , 则 包含 (include)? 下 面 的 一 段 代码 块 。 这 个 代码 块 以 .en- 
dif 来 结束 ， 
ifndef  <зушһо> 
如 果 所 symbel>> 是 没有 定义 的 , 则 包含 (include) 下 面 的 一 段 代 码 块 。 这 个 代码 块 以 
, end 这 来 结束 ， 
„inchide “<—THilename>”"” 
包含 指定 的 源 文 件 。 它 和 armasm 的 INCLUDE 或 者 和 C 的 #include 类 似 ， 


opino sJedojeAoc WEAS NAY 
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Arp <param> {, «val 1) (, «val 2» )-- 
ЖА ЧАЗА CIR h r value 列表 的 value 执行 一 次 。 抉 以 一 个 , endr 保留 
字 来 标记 结束 。 在 循环 的 代码 块 中 ,使 用 \<<paratm>> 来 代替 value 列表 中 的 value, 


macro <name> {<ага 177) (, «arg 27)-«(, «arg k>} 
WA —T 87H k TERREA name MEE, ЖЕ УШ. endm 米 标记 结束 。 如 
有 宁 想 提前 跳出 宏 , 则 可 使 用 , exitm 保留 字 。 这 些 保 留 字 和 armasm 中 的 MACRO, MEND 
和 MEXIT 类 似 。 必 须 在 哑 寄 参数 前 加 一 个 人 ^”"。 例 如 : 
, macro SHIFTLEFT a, b 
if Ab <D 
MOV Ха, Va, ASR dt - 5 
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.exitm 
. endif 
MOV Va, Va, LSL Hb 
‚ endm 


‘rept  — number of times 


按照 指定 的 次 数 重复 执行 一 个 代码 块 。 这 个 块 以 . endr KER, 


«register name>>  ,req register name» 
为 一 个 寄存 器 取 个 名 字 。 这 和 агтаѕт 的 RN 很 类 似 , 但 是 这 里 右边 的 寄存 器 不 能 只 
给 出 寄存 器 号 ,必须 给 出 具体 的 寄存 器 ,例如 ,ace . req rọ, 


„Section <весіїоп name> {, “<flags >”} 
开始 一 个 新 的 代码 段 或 者 数据 段 。 通 常 ,代码 段 称 为 . text, 一 个 经 过 初始 化 的 数据 段 
称 为 . data, 一 个 没有 初始 化 的 数据 段 称 为 . bss， 它们 都 有 默认 的 标记 (flag) ,连接 器 识别 它 
们 的 默认 名 字 。 这 个 保留 字 和 armasm 的 AREA 类 似 。 表 А. 19 给 出 了 ELF 格式 文件 中 
<flag> 字 符 串 中 可 能 出 现 的 字符 。 | 
# .19 ELF 格式 文件 的 ,seetion 标志 


Suowonusu| Jerqulessy GUINYE pup Way Y 
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„Set < variable name>, «variable value 

设 属 一 个 变量 的 值 。 它 和 armasm 的 SETA ЖЫ, 

„Space <number_of byte> (, —fill byte») 

生成 给 定数 量 的 字 节 。 如 果 指 定 了 <fill_byte>> , 则 统 指定 的 值 填充 每 个 字 节 ; URN 
有 指定 , 则 以 0 填充 每 个 字 节 。 它 和 armasm 的 SPACE ЖД. 

Word « wordl7 {, «Zword27» |... 

把 一 系列 的 32 位 字 当 成 数据 揪 人 汇编 , 它 和 armasm 的 DCD ж, 
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B ARM 和 Thumb 指令 编码 Б _ 


本 附录 给 出 32 位 ARM 指令 集 和 16 位 Thumb З 6888538 DOG AERE ОКА 
器 cpsr 和 эрэг 的 城 进行 了 说 明 ， 


В.1 ARM 指令 集 编码 


Ж ВІТ ARMv6 体系 结构 32 位 ARM 指令 集 的 位 编 碍 。 如 果 需 要 对 ARM 指 
令 进 行人 人 工 译 码 ; 则 这 张 表 是 很 有 用 的 。 为 了 有 助 于 快速 入 工 译 码 , 已 经 对 此 表 进 行 了 一 些 
扩充 ， 对 竹 表 中 没有 列 出 的 位 用 射 ,在 ARMv6 IEEE EG E S LUE COR T PRIM . 


为 了 有 效 地 使 用 表 B.T, 可 以 采用 以 下 译 码 步骤 ， 

e 关注 十 六 进 制 指令 编码 的 第 一 个 十 六 进 制 数字 ,即位 28—31, 如 果 值 为 0xF, 则 可 
ИЕЫ B. 1 的 铺 尾 ! 和 否则 这 个 十 六 进 拥 数 代表 的 是 一 个 条 件 сопа, cond B) Ë 
码 参考 表 В. 2. 

e 整个 表 B. 1 的 索引 使 用 第 2 个 十 六 进 制 数 ,即位 24 一 27( 上 其 色 部 分 ) 。 

e 对 于 指令 编码 的 位 4 .位 了 或 者 位 23 用 灰色 标 出 ,这 些 位 也 用 作 索 引 。 

e 找到 了 表 的 正确 人 口 启 , 查 看 op 位 。 把 op 位 置 的 二 进 制 数字 连接 起 来 组 成 一 个 数 
字 , 以 指示 在 天 格 左 部 由 “| "分 割 的 指令 , 横 如 ,如 果 有 2 个 op 位 , 值 是 1 和 0 ,二 
进 制 值 10 指出 在 表 中 的 指令 号 为 ZUS 3 条 指令 )。 

o jT HERI SS А НИНИ. 

表 中 使 用 以 下 缩写 ， 


e 对 于 STC 和 LDC SEE 3858 R38 LR LÀ 1, 

e ЮЖ CPS 改变 了 处 理 器 模式 ,出 M 为 1。 处理 器 模式 的 定义 在 表 B. 3。 

e 在 协 处 理 器 指 今 中 ,op1l 和 op2 是 操作 码 扩 展 域 。 

Ф post 说 明 是 后 变 扯 寻 址 模式 ,例如 [Rnj],Rm 或 者 [Rn]. #immed, 

@ pre 说 明 是 前 变 址 寻 直 模式 ,例如 [Rn,Rtm] 或 者 【Rn # immed j, 

@ 如 来 寄存 只 R: i Bl ТЕЖЕУ Ча, A register list 是 一 个 位 域 , 且 位 天 是 置 位 的 ， 

e rot 是 宇 节 特 环 ,第 2 个 操作 数 是 Rm ВОВ (8 x rot), 

è rotate 是 位 循环 ,第 2 个 操作 数 是 #immed ROR (2 * rotate), 

e shiit 和 sh 编码 一 个 移 位 的 类 型 和 方向 ,参见 表 В, 4, 

龟 用 于 选择 号 址 方式 是 向 上 (wp) 还 是 向 下 Cdown)。 如 果 U= t. MEAE ps) 3: 
ЖЕЕ. Ко], 64 或 者 [Rn, Rm [if E U-— 0.38 2 85 HIEMS 5b Е, 
Ко],  —4 [Rn j, — Rm. 

@ unindexed 表示 一 个 形式 为 [Raj,toptionj 的 寻 址 模式 ， 


sGuipooug uogonisur GUNU: pup uv g š 
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iss 
E&le 


dd Ere 


ее 
еи viele 
еи &lele 
ojo 
e © © 
© © © 
© © © . 
o 
o 
E 


xm 


7) 
DENT 
O " ë > 
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表 B.1 ARM 指 令 译 码 表 
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3130292827262524232221201918 17 1615 14131211109876543210 


5 il E ® 
= 2 9 Дт 2 
[uw oro У 
R 25 6 $ s :2 2 95 = < > 
£ ca gg шї 55 ЗР Š 8 © 
x 28 28 sE EPP 8° 120-2 
ПЕСНИ ilg 
= = 545 = D Ek = 
£ 2: 2223335 Ë Š Š 2923333328093 РЕБЕ 





B ARM Ñ Thumb 指令 编码 


B ARM and Thumb Instruction Encodings 




























| uw 全 xdaool sa | oma | 
| uw хдо $3 [т I I T 
| uw |r[xdoo| $3 — | ITIT-iUN | 
| un [O[urs[ azs yus | PH | 
| uw [|irro[o o[s] pa | 
| шч [IfI rojo of] ру | mii | 
| ux |i[rrojoo[ss] pa [т : v [от ао отто. 
| uw |1 rro[oo[ss|] py | пп=ча [о I ао отт o 
|j uw [r[rrojo ofw] pa |i тї i[O0 о doft 
| uw [iri ojo o[s2|] Pa | misi [o o doll 
| uw [|r|rodopt r 1 I| Pq [т 1 I |i I do| 
| шя jio rr t|. Pa [| œ [оо o| 
| uw |тоо r : I| pa | rpouur [о I do] 
| wa 0 下 | ozs yus | рч | spoum | [ү dol 
| шч |Lodol azs ums | pa | "vs | 
шя jiri rri) PH | vs | 
шч [Hoori r i Pa | vs | 
| шч litiiolt tiiI| p» | пу | 
| шя отойт: P | vs | 
| uw [|тоо I I i| Pa [| «v | 
| ux [оооу] ps [| vs | 
| ur [ojus | gs | p | Uus | 
| zrpemm | р [| œ | 
| “Ipu | р [| o | 
| | рәш | mo | py [о 0 0 O 
| Pw | omo | pa | wu | 
poum | это o 0 0 0| wr | 
| Pwa | ofi ү ү 1|3 x s 3| 
| mum | o ры | ош | отоо 
кш от И m | = ол т по оо) 
| un /|дот[г ры | œ [do^ o n[t о 0 Q 
[0:€] : 
aani rofe] 2 | т | = fom тоого 





Ы. е E LR 


O0Izt€F*S$9 286 0111 СІ ЄТРЇ 5191 LI 8EGEOT IC CC ET PZ SC 9C LC 8T 6C 0€ I€ 


гаж 





qisiwslaiv1Ws 

asnwslavnws 

asawslav1iws 

ad gugilasishaihis 

H1X{N|IS} 

Hv1x(nls) 

gix(nls) 

9raixínisi 

gvix(nls) 

9 Igvix(nls) 

HSA3YI Юлы! ^3 
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911vstnisi 

1vstnis) 

81HXdl18xd 

egnstunlonini IHslolsi 

ваамінпіопіпі IHslols! 

9raenstunlonin! IHslolsi 

xaavanstnnlonini IHslols! ) 

xansaavtnnlonini IHslolsi } 

огаомінпіопіпі IHslolsi } 

lsod gygilesishigsis 

ad gyugilesislsugiis 

зоа gugilasishsaihsis 

NAWIAOW 

ошнчо 

NWolawoloaili S1 

ww Jsds yswlwwig ssd YSW 
osul^asloaviaav 

lasulenshio3laNv 


ead usxalassqilasuisiaua 
ead ussqlassaiiasuisiaugi 
eid Huq1lH31S 
eid НЧОПЇНЧ1$ 


Се 3c & dora) se HE 














ARM 嵌入 式 系 统 开 发 





pzpoumun 
| uo [t| zdo | обоо | pa | uo lol rdo — | 


0 1 puoo 
| uo | ido | odoo | pa | ч оо т O[O F рю» | 
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B ARM 和 Thumb 指令 编码 

















e 如 果 指 令 出 现 后 组 R(round, $A) R Ж 1. 

Ф 如 果 Load store PF rP 1 30/6 58 T, ATAL, 

e 如 果 1"(writeback, 回 写 ? 在 指令 助 记 符 中 出 现 , 则 W 为 1， 

e 如 果 指 令 出 现 后 名 XCexchange, 2528) , WIE X Jj 1, 

e EH 3Us 8 BL z 和 3y E 0:9 IB BUS ARTI ху 为 1。 
e 如 果 LDM 或 STM 82 4 SS MU 1, 


со 

X B.2 cond Ж » 

Ad 

二 进 制 十 去 进 制 。 cond zty 十 六 进 制 cond = 
0000 0 EQ 000 8 НІ Q 
0001 1 NE 1001 9 LS о 
— 

- 0010 2 CS/HS 1010 А GE 2 
0011 3 CC/LO 1011 B LT 3 
0100 4 MI 1100 C GT О 
m 

0101 5 PL 1101 р LE а 
0110 6 VS 1110 Е IAL} 5 
= 

0111 7 үс © 
5 

гл 

= 

С) 

Q 

O. 

> 

(Q 

tn 


表 B.3 mode Щй 
二 进 制 Tub del mode 617 
10000 0х10 用 户 模式 (_usI) 
10001 дх11 ЖИЕ fio 
10010 0x12 ФЕ ( їг) 
10011 0x13 监控 模式 (_svc) 
10111 0x17 ФЕВ Сан) 
11011 Ox1B E XU SEC and) 


11111 DxiF 系统 模式 
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> 表 了 B,4 shift, shifl, size 和 Rs 译 码 表 
< — 
сэ shift shift sizc Rs бз 
% 00 Ü— 31 N/A LSI & shift. size 
S 00 N/A Rs LSLRs 
Jg 01 0 N/A LSR #32 
Ф 01 0-. 31 М/А LSL # shift size 
6 01 N/À Rs LSLRs 
€ 10 0 М/А ASR #32 
v 10 1— 31 N/À ASR shift size 
也 10 N/À Ез ASR Rs 
Q 11 0 N/A RRX 

11 1~ 31 N/A ROR # shift size 

11 N/À Rs ROR Rs 

N/A 0 3l N/À 1B shift REB A: F PKHBT 是 的 ;对 


T PKHTB 是 10; 对 于 SAT à 2 «sk 


B.2 Thumb 指令 集 编 码 


618 


Ж B.5 L Ë T 16 位 Thumb 指令 集 的 位 编码 。 如 果 需 要 对 Thumb 指令 进行 人 工 译 
码 , 则 这 张 表 是 很 有 用 的 。 为 了 有 助 于 快速 人 工 译 码 , 已 经 对 此 表 进 行 了 一 些 扩充 ， 此 表 包 
括 了 到 体系 结构 THUMBv3 的 指令 定义 。 表 中 没有 列 出 的 位 映射 ,在 THUMB 中 是 没 
有 定义 的 ,或 是 不 可 预测 的 。 


为 了 有 效 地 使 用 表 B. 5, 可 以 使 用 以 下 的 译 码 流程 ， 

e 使 用 指令 编码 的 第 一 个 十 六 进 制 数 (位 12~15, 灰 色 的 ) 来 索引 表格 。 

e 使 用 灰色 标 出 的 位 0 一 11 dtf SL. 

e 找到 了 表 的 正确 入 口 后 ,查看 op 位 。 把 op 位 置 的 二 进 制 数字 连接 起 来 组 成 一 个 数 
字 , 以 指示 在 表格 左 部 由 “| ?分 割 的 指令 。 例如 ,如 果 有 2 个 op 位 , 值 是 1 和 0 , 则 
二 进 制 值 10 指出 在 表 中 的 指令 号 为 2( 第 3 条 指令 )， 

e 指令 操作 数 的 命名 与 附录 A 中 的 描述 相同 。 





B ARM 和 Thumb 指令 编码 





表 中 使 用 以 下 缩写 : 
@ 如 果 寄 存 器 Rk 出 现在 寄存 器 列表 中 , 则 register_list 是 一 个 位 域 , 且 位 k 是 置 


位 的 。 
e 如 果 Ir HRE PUSH 操作 的 寄存 器 列表 中 ,或 者 pc 出 现在 POP 操作 的 寄存 器 列 


表 中 , 则 R=1, 


表 B.5 Thumb 指 令 译 码 表 


指令 类 别 (以 op 为 案 引 ) 


LSLILSR 
ASR 

ADDISUB 

ADDISUB 

MOVICMP 

ADDISUB 
AND|EORILSLILSR 
ASRIADCISBCIROR 
TSTINEGICMPICMN 
ORRJMULIBICIMN 

CPY Ld, Lm 

ADDIMOV Ld, Hm 

ADDIMOV Hd, Lm 

ADDIMOV Hd, Hm 

CMP 

CMP 

CMP 

BX|BLX 

LOR LD, рс, fimmed"4] 
STRISTRHISTRBILDRSB pre 
LDRILDRH|LDRBILDRSH pre 
STRILDR LD, [Ln, fimmed"4] 
STRBILDRB LD, [Ln, #immed] 
STRHILDRH Ld, [Ln, fimmed"2] 


ѕбирооиз иоцогщѕи quunu| рио уугу g 
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ARM BLATT A 





指令 类 别 (以 op 为 索引 ) 15 14 13 12 H 109 8 7 6 5.4 321 0 

STRILDR LD, [sp ffimmed"4] 

ADD Ld, pc, #immed'4| 

ADD LD, sp, #immed*4 

ADD sp, ffimmed"4|SUB sp, 
#immed*4 

SXTHISXTBIUXTHIUXTB 

REV|REV16|JREVSH 

PUSHIPOP 

SETENDLEISETEND BE 

CPSIEICPSID 

BKPT immed8 

STMIAILDMIA Ln!, (register-list) 

B«cond» instruction address 
4+offset"2 

未 定义 ， 保 留 。 

SWI immed8 

B instruction address+4+offset*2 


BLX ((instruction+4+ 
(pff««12)«offset*4) &-3 
前 面 必须 有 一 条 分 支 前 级 指令 。 
分 支 前 绷 指 令 ， 后 面 必须 跟 
BL 或 BLX 指 令 。 


BL instruction «4«(poff««12)«offset*2 
前 面 必须 有 一 条 分 支 前 级 指令 。 








В.З 程序 状态 寄存 器 


d B.6 列 出 了 ARMv6 的 32 位 程序 状态 寄存 器 的 位 域 定义 。 














В ARM 和 Thumb 指令 编码 

















$t 8.6 cpsr 和 spsr ЖЖ > 
31 30 29 24 27 28 25 24 23 22 21 20 19 18 17 16 15 i4 13 12 116 9 8 7 & 5 4 3 2 1989 5 
хе = Dess e раа] је 
"m 用 è = 
N йк. d i e E ТУ 5 
z 零 标志 ,如 果 标志 设置 操作 的 结果 是 OWA o 
c d Eck ORCI О АНЕ. W A.3 d 
у жик. oi E EE MEN EON s 
Q ЕЖЕ, — eH TENURE UE ШИР. SAE A 中 QADD 指令 (ARMv5E 和 以 后 的 体系 > 
结构 ) 2 
] }=1 说 明 Java 执行 {必须 Т 0) ,使 用 BX] 指令 改变 访 位 LARMv5] 及 以 后 的 体系 结构 
Res 这 些 位 是 保留 的 ,用 于 以 后 的 扩展 。 坎 件 不 应 操作 这 些 亿 о 
GEL3:0] ”SIMD 大 于 或 等 于 标志 ,参看 附录 А 由 的 SADDC ARMv6) 2 
E 控制 数据 大 小 端 。 参 看 附录 A 中 的 SETEDN(ARMyO Q 
À A=1 ЕЕЕ F I: ( ARMv6) 
I I=1 禁止 IRQ Ф 
F F=1 禁止 FIQ 中 断 
T T=1 表示 Thumb 状态 ;T=0 表示 ARM RE. EBX а ВХ 指令 改变 该 位 (ARMyw4T WI 
以 后 的 架构 | 621 


mode 当前 处 理 器 模式 ,参看 表 B. 4 








附录 CC 
处 理 器 与 体系 结构 


@ ARM AZAA 
e яй 











C 处 理 器 与 体系 结构 


本 附录 中 列 出 ARM 处 理 器 的 命名 .相应 的 ARM RE A ЖЫ AR dS ERR ASA), 


ARM7TDMI 以 前 的 处 理 因 没有 列 出 。 
例如 , 表 C.3 显示 了 ARM966E -SS 处理 器 是 ARMSE 核 ,实现 的 ARM 体系 结构 版 本 


ESTE, MLEW ARMSTE 的 二 进 制 代码 都 可 以 在 ARMS66E- S ERG. 


С.1 ARM 命名 规则 





所 有 的 ARM 处 理 器 都 使 用 一 个 共同 的 命名 规则 ， 当 然 , 这 个 规则 随 着 时 间 的 推移 也 
在 不 断 地 发 展 。4RA 内 蕉 名 称 的 形式 为 :ARM(z) (abel), RE z 是 ARM 核 的 编号 ;ia- 
bel 是 一 些 字母 组 成 的 ,用 于 囊 示 其 它 的 特征 ,在 表 习 .1] PAWE., ДАМАН ERSTE 
式 为 ,ARMI{Z (yHz) {labels} ,这 里 y 和 > 用 于 定义 处 理 器 cache 大 小 和 内 存 管理 模式 。 
表 C.2 列 出 了 ARM 处 理 器 编号 的 规则 。 
» C.1 Label Щі 


eIu2oJUuoN рио siosse2o0ig D 


A ü 说 м 
D ARM 核 支持 通过 JTAG 接口 调试 (debug) 。ARMv5 E ELS ARM RE B ius D 
E ARME ARMS 上 增加 DSP 指令 扩展 。ARMs5 及 以 后 的 内 核 都 自动 包 舍 E 
F ARM Hol nt [si Begg ДУРР E HEWE EE BE А 
I _ ARM BB SHE A 3t ICE 单 元 (EmbeddedlCE call 支持 硬件 断 点 和 观察 点 。ARMv5 及 其 
后 的 АКМ Нш I 
J ARM 核 支持 Jazelle Java 加 速 体系 结构 
М АВМ 核 支 持 ARMv3 SERIES. ARM 及 以 后 的 内 核 都 自动 包含 M 
-5 АКМ 核 使 用 可 综合 的 硬件 设计 | 
T АВМ ARMA 及 以 后 的 体系 结构 支持 Thumb 指令 集 。ARMv6 REUS BA BORSE 3 
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Аат 
ЖС,2 АМАИ Е:АВМ({ х} (у), 
x y z 说 y = Я 
7 * * ARM? 处 理 器 核 ARM7TDMI1 
p x š ARMS 处 理 器 核 ARMB24EJ- 5 
10 * * ARMIO bp 3 SEE ARM1026E] - S 
11 * " ARM11 处 理 器 核 АЕМ1136] - 5 


OO 一 














P 
ES, 
< 
c 
® 
(D 
3 
y 
c 
° 
[e] 
Ф 
只 
D 
- 
о. 
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ARM ISA 827122 








i52 

x y z 说 *" т d 

# 2 * cache 和 MMU ARM920T 

* 3 * 物理 地 址 标记 的 eache 和 MMU ARMI136] - S 

+ 4 * cache 和 MPU ARMI46E - S 

* 6 x ЧН ,{Н X cache ARM966E - 5 

# * Ü 标准 cache 大 小 ARM920T 

* * 2 缩小 的 cache ARM922T 

# * 6 dd ПИЙ SRAMCTCMD АЕМ946Е - $ 





标 导 (labels) ,或 者 属性 ,通常 包含 在 跑 时 间 变 化 的 不 同体 系 结构 版 本 中 。 例 如 ,在 
ARMv4 体系 结构 的 处 理 器 中 ,标号 工 表示 包含 了 Thumb。 但 是 由 于 在 АРМ 及 以 后 的 
处 理 器 中 都 包含 Thumb, 所 以 在 此 后 的 版 本 中 ,就 没有 必要 再 标 出 了 了， 


C2 内 核 与 体系 结构 





A C.3 列 出 了 每 种 ARM 处 理 器 对 应 的 ARM 核 以 及 处 理 器 使 用 的 体系 结构 版 本 
сз 452m. ge DR BC RO 


AREA | авн АЕМ 15А Thumb 18А VFP SA 
ARM7TDMI ARM?TDMI “Т vi 
ARM7TDMI- Š ARM7TDMI - $ wT м 
ARMTE] - 8 ARMJE] v5TEI v? 
ARM740T ARM?TDMI Т v1 
ARMT20T ARMTTDMI “Т vl 
ARM920T ARMSTDMI «T vl 
ARMS22T .ARMSTDMI мт. 1 
ARM940T ARMSTDMI “Т 1 
Intel SA - 110 StrongARM! vd 

АВМ926ЕЈ - S ARM9EJ v5TE] v2 
ARMS46E - $ ARMIE v5TE v? 
ARMS68E - S ARMSE УТЕ ү? 
ARMIO20E ARMIOE v5TE 2 





C 处 理 器 与 体系 结构 








ФЖ C3 
EESE к= н ARMISA — ThumblSA VFP ISA 
ARM1022E ARMIDE vSTE v? 
ARMIO26EJ - 5 ARMIOEJ viTE] v? 
Intel XSeale™ XScale voTE v2 
ARM11381- 5 ARM11 v5] và 
ARM1136JF - S ARMII v6] và v? 


MMe PUD $оѕѕәооа D 
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附录 D 
指令 周期 定时 


e 指 售 周期 定时 表 的 使 用 

€ ARMT77TDMI 16 АЙЖ 9 
€ ARM9TDMI # + ü M X 
€ StrongARMI $48 A XN 
€ ARME di AR ACE 9 

9 ARMIOE 指令 周期 定时 

@ Intel XScale 指令 周期 上 定时 
© ARM11 将 态 周期 定时 








D 指令 周期 定时 


本 附录 列 出 了 一 些 通 用 ARM 实现 上 的 指 今 周 期 定时 数 。 在 不 同 的 实现 版 本 上 , 指 今 
周期 定时 数 可 能 会 有 所 不 同 ,定时 数 也 会 受到 :-- 些 外 部 事件 的 影响 ,如 中 断 , 存 储 器 速度 和 
cache 失效 等 。 本 附录 给 出 的 数据 仅 供 参考 ,性 能 的 验证 还 应 在 实际 的 硬件 平台 上 进行 ， 
最 新 的 指令 周期 定时 信息 请 参考 制造 商 的 数据 手册 。 

ARM 核 使 用 流水 线 技术 实现 ,所 以 … 条 指令 执行 实际 占 川 的 周期 数 ,可 能 与 其 前 /后 
执行 的 指令 都 有 关 。 在 优化 代码 时 ,要 明确 这 些 指令 之 间 的 相互 影响 ,请 注意 在 定时 表 中 标 
注 有 “说 明 (Notes) ”的 那些 指令 ， 








D. 1 指令 周期 定时 表 的 使 用 


可 以 使 用 以 下 步骤 来 计算 指令 执行 的 周期 数 ， 

(D f HN Copa 3 C. 3 找到 所 使 用 的 ARM E, 例如 , ARM?xx 通常 是 
ARM7TDMI E ; ARM9xx 使 用 ARM9TDMI 核 ;ARMxxF Æ ARMIE E: , 

(D 在 本 附录 中 找到 所 使 用 的 ARM 核对 应 的 指令 局 期 定时 表 .。 

О 在 表 的 左边 找到 相关 的 指令 类 别 。ALU 类 指令 是 算术 指令 和 软 辑 指令 的 简称 , 包 
# : ADD, ADC, SUB, RSB, SBC, RSC, AND, ORR, BIC, EOR, CMP, CMN, TEQ, 
МОУ, MVN, CLZ &, 

O 在 "周期 (cycles)? 列 中 得 到 相应 的 数值 。 这 个 数值 是 指令 通常 需要 占用 的 周期 数 ， 
这 里 假定 条 件 码 匹 配 并 且 不 考虑 与 其 它 指令 的 相关 。 周 期 计数 可 能 与 表 D. 1 中 的 
某 个 缩写 有 关 。 

© 如 果 “ 说 明 ” 列 中 包含 形式 为 “kjf condition "НЕН, 则 须 在 原来 的 指令 周期 计数 
土 ,加 上 这 些 额 外 的 周期 。 

© 检查 能 够 导致 处 理 器 暂停 的 互 锁 条 件 。 经 常会 出 现 这 样 的 情况 ;当前 指令 要 使 用 前 
面 指 令 的 结果 ,而 此 时 结果 还 没有 准备 好 。 除 非 有 特殊 说 明 , 在 指令 执行 的 第 一 个 
周期 ,输入 寄 存 器 就 需要 被 使 用 ,而 输出 结果 要 到 指令 执行 的 最 后 一 个 周期 结束 后 
才 有 效 。 但 是 ,其 有 多 个 执行 阶段 的 流水 线 实现 ,就 会 较 旱地 需要 输入 操作 数 ,而 结 
沫 可 能 要 在 几 个 周期 后 才 输 出 。 表 D. 2 对 描述 这 些 内 容 的 “说 明 ” 部 分 所 使 用 的 语 
名 进行 了 解释 。 

(D 如 果 指 令 的 条 件 码 不 匹配 , 则 其 不 会 被 执行 ,通常 这 也 要 占用 一 个 周期 。 但 是 对 于 
有 些 体系 结构 的 实现 ,即使 指令 没有 执行 ,也 可 能 费 占 用 多 个 周期 ， 可 以 参考 形式 
39 [k cycles if not execute J” Bj iS 8. 
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X D.a 标准 的 周期 缩写 








" E 4 X 
协 处 理 器 发 出 的 忙 -等 待 周期 数 ,依赖 于 协 处 理 髓 的 设计 
M 习 法 器 选 代 周 期 数 ,依赖 于 寄存 器 Rs 中 的 值 。 每 一 个 届 体 的 实现 都 包 舍 一 张 


ФИНН RE Rs 计算 M 


N 在 多 寄存 器 load-store J $ PE PSOE HERB. ШИ pr НАЕ % fE SEU S 
中 , 则 NN 也 包含 pe. NEPHI 


X 0.2 流水 线 操作 说 明 


说 明 请 向 * X 


opino syedojo^oc UuJeisAS Way 


指令 的 结果 寄存 大 Rd 要 在 指令 结束 上 个 周期 后 才 可 以 作为 其 它 指 
令 的 输 人 。 如 果 试 图 过 早 地 使 用 Rd, 则 内 核 会 暂停, 直到 个 周期 
Ар E 


Rd is not available for k cycles 


Rn is required k cycles early fry epa T ИЙ A SF ДЕ Rn 就 必须 已 经 有 效 下 个 
属 期 ; 理 则 ,内 核 特 会 等 到 条 件 满 串 才 开始 执行 | 


Rn is not required until the kth cycle 输入 寄存 器 Rh 不 是 在 指令 执行 的 第 一 个 周期 就 技 读 到 cycle, 而 是 
ВЕЋА. БЕШЕ Rn 在 那个 时 刻 有 效 , 则 ARM 内 核 
就 不 会 暂停 


628 You cannot start a type X 指令 使 用 的 资源 也 被 一 个 类 型 的 指 他 合用 ,而 日 当前 指令 将 会 在 


Т ЕЕ ИЕ Р АЯ 


Instruction fot k cycle dp NS k + BIS RENS — TX dg N| НЕН ЕЕ 
直至 点 个 周期 结束 





D.2 ARM7TDMI 指令 周期 定时 





ARMTTDMI ARE 3 级 流水 线 结 构 , 其 中 包含 一 个 执行 阶段 。 一 条 指令 占用 的 周期 
数 通常 不 依 束 于 前 /后 继 指 令 。 乘法 电路 使 用 一 个 可 提前 终止 的 32X8 位 的 乘法 器 阵 别 ; 
乘法 选 代 的 周期 数 M 依赖 于 寄存 器 Rs 的 值 ,参见 表 D. 3。 表 D. 4 给 出 了 ARMTTDMI 指 
令 周 期 定时 数 。 
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D 
m D 3 ARMITDMI B HE Bi ЕЖЕ BE ° __ 
„1 
л 
М Rs 范围 (使 用 第 一 个 适用 的 范围】 К< з= 55 — x 一 通配符 位 = 
1 — 2898 BSSSASER BOBS 3833588% XKXXXXXX o 
2 Ogre 25 85588858 S8888855 XXXXXXXX XXKXXXXX Q 
3 аа BSSRESES XXXXXXXX — XXXXXXXX XXXXXXXX С) 
4 КФ т . XXXXXXXX — XXXXXXXX — XXXXXXXX XXXXXXXX Š 
Л 
—À 
表 昌 4 ARM7TDMI(ARMv4T) 措 他 周期 定时 数 j 
LEM EU = ЭҢ Ж 说 H (Ó 
u 
ALU ] WERE EIER UN EXE Rs 移 位 , 则 周期 数 加 1 


ШИ Rd 是 pc, 则 周期 数 加 2 


B,BL,BX 3 
CDP 1+8 

их 1+8+ № 

LDR/B/H/SB/SH 3 如 果 Rd & pe, 则 指令 周期 数 加 ?2 

LDM 2--N 如 困 pc 出 现在 寄存 器 列表 中 , 则 周期 数 加 2 

MCR 2+B 

MLA 2+M 629 
xMLAI. 34M 

MRC 3--B 

MRS, MSR 1 

MUL 1+M 

XMULL 24-M 

STC 1+B+N 

STR/B/H 2 

STM 1+М 

swi 3 

SWP/B 4 








» ЕЖЕН D. 3p 1,2,2,4 的 顺序 来 判断 输入 值 x Pu S EM. L) c D E Fe SE t Tl i MEE RD E DE 
TE, 一 一 译 者 注 








әрп syodo[oAoq LUSISAS WHY 
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D.3 ARM9TDMI 指令 周期 定时 





ARM9TDMI 内 核 基于 一 条 具有 1 个 执行 阶段 ,2 个 存储 器 操作 阶段 的 5 级 流水 线 。 在 
load 指令 执行 后 ,通常 会 有 1-2 个 周期 的 延迟 , 才 可 以 使 用 装载 的 结果 。 在 load 指令 后 立 
即使 用 装载 的 数据 ,会 增加 互 锁 周 期 。 乘 法 器 电路 使 用 可 以 提前 终止 的 32x8 位 乘法 器 阵 
Fi. PERREN MEETER Rs 的 值 ,参见 表 D. 5。 表 D. 6 给 出 ARM9TDMI 的 指 
令 周 期 定时 数 。 

ADS ARMSTDMI 的 提前 终止 乘法 器 


M Rs ЕСЛИ ЛЕД В) Rs 性 格式 з= #4  x—ibEgidi 


1 — 28 6728 SSSSSSSS 85583855 88588555 XXXXXXXX 
z —2 zz r2! 83888358 85388883 XXXXXXXX XXXXXXXX 
3 —2Ug qc SESSSESS XXXXXXXX XXXXXXAÀX XXXXXYXX 
4 其 余 的 工 ХХХХХХХХ — XXXRXXXX XXXXXXXX XXXXXXXX 


P» neo ARM9TDMI( ARMsAT) 4i $ Jl 期 定时 数 








М + Ж | Ho» 说 m 

ALU 1 如 果 使 用 寄存 器 措 定 的 者 位 量 来 对 Rs Юу, ИПИ ДОШ 1 
如 果 Rd 是 pc, 则 周期 数 旭 2， 

B,BL, BX 3 

CDP 1+В 

LDC B+N 

LDRB/H/SB/SH 1 Rd 在 2 个 周期 内 不 能 使 用 

LDR Rd not pe 1 Rd 在 1 个 周期 内 不 能 使 用 

LDR Rd is pe 5 

LDM not loading pc N 如 果 N=1 或 者 最 后 一 个 装载 的 寄存 器 在 下 一 个 周期 中 被 合用, 则 
局 期 数 加 1 

LDM loading pe N44 

MCR 14 B 

МЕС Rd not pc 1-B Rd £ 1 个 周期 内 不 能 性 用 

MRC Rd is pe 3+B | 


oC 
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AM D.6 U 
- = 
RA Жи B o» 说 明 a 
MRS 1 S 
MSR 1 如 果 oo 城 的 任何 位 被 更 新 , 则 指令 周期 数 加 2 8 
MUL, MLA 24M 5 
xMULL, xMLAI, ЗЕМ 9 
STE B+N o 
(D 
STR/B/H 1 =! 
STM N ШЖ N=1,0WJ8 > NET 1 = 
SWI 3 (O 
ú 

SWP/B 2 Rd 在 1 个 周期 内 不 能 使 用 


D.4 StrongARMI 指令 周期 定时 


StrongARM] 核 基于 一 条 5 级 流水 线 。 在 使 用 load 或 者 乘法 指令 后 ,通常 会 有 | 个 周 
期 的 延迟 ,结果 才 可 以 被 使 用 。 另外 ,如 果 在 前 一 条 乘法 指令 执行 后 立即 启动 另外 一 条 乘法 
指令 , 则 也 会 有 1 个 周期 的 延迟 。 乘 法 器 电路 使 用 可 提前 终止 的 32 x 12 位 乘法 器 阵列 。 乘 
法 选 代 周期 M 依赖 于 寄存 器 Rs 的 值 ,参见 表 D. 7。 表 D, 8 给 出 StrongARMI 的 指令 局 期 
定时 数 。 
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*XD.7. StrongARMI ЙЕ ШЕШ 


M Rs 范 国 ( 合 用 第 一 个 运用 的 范围 Rs 性 格式 s= х= җи 
1 —gl&rec2ü 88888858 88588555 SSSSSXXX XXXXXXXX 
2 — 238 т< 2% S53S855S5 SXXXXXXX XXXXXXXX XXXXXXXX 


3 其 余 的 工 XXXXXXXX — XXXXAXXX XXXXXXXX XXXXXXXX 








opino sJedojo^ec WLAS Way 
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E 4 31 


ALU 


B, BI. 
LDR/B/H Rd not pc 


LDRSB/SH Rd not pc 


LDR Rd is pc 
LDM N21,;not pc 


LDM М>1,пот ре 


LDM loading pe 
MRS 

MSR to сраг 
MSR to spsr 


MUL, MLA 


MULS, MLAS 


xMULL,xMLAL 


xMULLS,xMLALS 
STR/B/H 


STM 


SWP/B 





A 其 


2 


X D.8 StrongARMI(ARMv4] $ JB] NE ЕН К 





说 m 


加 时 使 用 寄存 器 指定 的 移 位 , 则 即使 指令 没有 执行 ,周期 数 也 票 加 1 
An Rd Ж рс, JË ЕЙ ФТ, ЛИЛИ 2 


Rd 在 1 FR A 4 B f Fi 
Rd # АНТЕ 


[如 果 没 有 执行 , 则 2 个 周期 ] 


最 后 一 个 装载 的 值 大 1 个 周期 内 木 可 使 用 
[如 果 没 有 执行 , 则 N 个 周期 ] 


[如 果 没 有 执行 , 刚 maxC NL) А] 
Ra 在 1 个 周期 具 不 能 合用 
ШЖ cox RAAE Pr 8 W W: , Ф НВС 1 


ЕІ ТАЙАХ i. HEEFT- 4 3 BB B 3 R t 0 * 
法 


Rd 在 1 个 周期 内 不 能 使 用 ,并 且 在 下 一 个 启 期 不 能 启动 其 它 各 法 
[如 果 指 令 没 有 执行 , 山 指 令 周 期 数 为 27 


[如 果 指 令 没 有 执行 , 则 指令 周期 数 为 2] 


ШЖ 外 二 1; 则 指令 周期 数 加 1 
[如 果 指 令 没 有 执行 , 则 使 用 的 指令 局 期 数 相间 ] 


[如 染指 令 没 有 执行 , 贡 使 用 周期 数 为 2] 


D.5 ARM9E 指令 周期 定时 





ARMSE 内 核 基于 一 条 5 级 流水 线 。 在 使 用 load 或 者 乘法 指令 后 ,通常 会 有 1~2 个 周 


期 的 延迟 ,结果 才 可 以 被 使 用 。 乖 法 器 电路 使 用 32 x 16 位 的 乘法 器 阵列 ,乘法 器 不 会 提前 
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ib, 32 D.9 给 出 了 ARMIE 的 指令 周期 定时 数 ， Ч 
Ж 0.9 。 ARM9Erev2{ARMvSTE} 指 令 周 期 定时 数 а 
指令 类别 周 期 说 明 G 
ALU Rd not pc 1 如 果 使 用 害 存 峰 指定 的 移 位 , 则 周期 数 加 1 9 
ALU Rd is pc 3 ЖШ ЖН Ф АТЕНЕ ИТЕ {ы BR FE TERRE 1 О 
O 
B, BL, BX,BLX 3 Ф 
CDP 1+В = 
LDC B-N B 
LDRB/H/SB/SH 1 Rd 在 2 个 周期 内 不 能 使 用 © 
如 果 装 载 偏 各 使 用 移 位 , 则 周期 孝 加 1 
LDR Rd not pc 1 Rd # 1 个 周期 内 不 能 使 用 
ШИЕЛИ. Lb Les 
LDR Rd is pe 5 如 果 装 载 偏 移 使 用 移 位 ,出 周期 数 加 1 
LDRD 2 R(d+1)# 1 个 周期 内 不 可 局 用 
LDM ,net loading рс М 如 果 N= RERE- T 39 ЖЕЕ F — r M SH i 9 M FI, W 38 
令 周 期 数 加 1 
LDM loading pc N44 
MCR 1+8 633 
MCRR 2+B 
МЕС Rd is not pe 1+В Rd 在 1 BIS PUR EE FR 
MRC Rd is pc 4-B 
MRRC 2+B Rd 在 1 个 周期 内 林 能 使 用 
MRS 2 
MSR 1 ШЖ “sx 城 的 任何 值 被 更 新 , 则 指令 周期 数 加 2 
MUL. MLA 2 Rd # 1 ^F RUSSE Be (t RE ТЕЛЕЕ 5 Ж ЕВ A 
MULS, MLAS 4 
xMULL,xMLAL 3 RdHi 在 1 个 周期 内 不 能 使 用 , 队 非 是 作为 嫌 暴 加 的 暴 加 器 输入 
xMULLS, xMLALS 5 
PLD 1 


QxADD, QxSUB 1 Rd 在 1 个 周期 内 不 能 使 用 
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D Lr D.9 
= и 
< NR 33 яи dto" 

2 SMULxy, SMLÁxy, 1 Rd 在 1 个 周期 内 不 能 使 用 , ДЕЛЕТ. ЭЗЕ ЭЛП ЖОНЕ A 
Ф SMLWx,SMLAWx 

3 SMLALxy 2 RdHi # à + BR PS A f ë FI c ЕЕ ТИ ТАЕНЕ A 
б STC BN 

Фф STRARAH 1 如果 使 用 移 位 的 偏 穆 基 , 则 指令 周期 歼 加 1 

8 STRD 2 

ч STM N ”如 果 Мег, ИНФ ШОШ 1 

(1) SWI 3 

Š SWP/B 2 外 在 1 个 周期 内 不 能 使 用 


D.6 ARMIOE 指令 周期 定时 


ARMIOE 内 核 基 于 一 条 带 分 支 预 测 的 5 级 流水 线 。 在 使 用 load 或 者 乘法 指令 后 ,通常 
会 有 1 个 周期 的 延迟 ,结果 才 可 以 被 使 用 。ARMI0E 使 用 64 位 的 数据 总 线 , 所 以 load- 
" store 指令 每 周期 可 以 传输 64 位 。 乘 法 器 不 会 提前 终止 。 表 D. 10 给 出 了 ARMIOE 的 指令 
周期 定时 数 。 


表 0.10 ARMI0E(ARMv5TE} 指 令 周期 定时 数 








жай ж A 期 说 明 

ALU | ШЖ Н W ran iq НЕ ЖЖ RH RRX, 册 周期 数 加 1; 如 果 Rd 
是 pe; 则 指令 周期 数 加 4 
一 个 例外 是 МОУ pc，Rn, 占 用 4 个 周期 

B,BX 0 一 2 WO 4r B 8 Omispredicted? , I| 82 f] 88 en š 

BL,BLX 1-2 ШЖ x HU Я Cmispredicted? , 则 指令 周期 数 吉 4 

CDP 1 

LDC 1 fà CRI ER T HEER 

LDR/B/H/SB/SH 1 Rd 在 1 个 周期 内 不 能 使 用 

Rdnotpc —. WR Eb 77 55 АН ОКЕ) D GR К УА НЕЛЕ. RA 


周期 数 吉 1 














НАЖА 


LDR Rd is pc 


LDRD 


LDM ‚по loading pc 


LDM loading ре 
MCR,MCRR 
MERIR} C Rd not pe 
МЕС Rd is pc 

MRS 

MSR to tpsr 

MSR to spst 

MUL, MLA 

MULS MLAS 
xMULL, xMLAL 
xMULLS, xMLÁLS 
PLD 

QxADD, QxSUB 
SMULxy, SMULW x 
SMLAxy,SMLAWx 
SMLALxy 

STC 

STR/B/H 

STRD 


STM 


SWP/B 


工 十 8 





Жар 10 
说 y 
WE E RR C W h ЕЛЕ BO d e Gr it Es. ШО] Ж ЖЕЛП 1 
[如 果 没 有 执行 , 则 周期 数 为 2] 
каж Кат #E 1 个 周期 内 水 可 使 用 
第 一 个 数据 项 在 1 个 周期 不 可 使 用 。 一 日 地 址 县 8 宇 节 对 齐 的 , 数 
据 就 可 以 被 成 对 装载 一 一 每 周期 ?2 个 数据 。 所 以 ,第 上 个 数据 项 应 


ЖЕО 个 周期 语 才 有 浆 , 这 电 a 是 基地 址 的 位 3， 在 这 
个 指令 完成 前 ,不 能 局 动 另外 的 load 或 store 指令 


L-—ON--a)/2,2 ВИН 2 

Ra 在 1 个 半期 内 不 能 司 用 

ШЖ свх 起 的 任何 值 被 更 新 , 则 描 令 周期 数 加 3 
如 果 指 令 证 有 执行 , 则 指令 周期 数 为 2 


Rd 在 1 个 周期 内 不 能 使 用 


RdHi 在 1 个 周期 内 不 能 使 用 


如 果 使 用 移 位 的 害 存 回 作 偏 移 量 , 则 指令 周期 效 加 1 


Rd 在 1 个 周期 内 不 能 使 用 
Rd 在 1 个 周期 内 不 能 使 用 
RdHi # 1 个 并 期 内 不 能 使 用 


如 果 司 用 前 变 直 寻 址 的 移 位 寄存 器 作 信 称 重 , 则 指令 周期 数目 加 1 


一 且 地 址 是 8 字 节 对 齐 的 ,1 个 周期 就 可 以 存 情 ?个 寄存 器 。 青 存 
吹 列 表 中 的 寄存 英 在 被 存储 之 前 ,不 可 对 其 改写 ,在 本 指令 执行 完 
之 前 ,不 能 启动 男 外 的 load 或 store fi 
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D.7 Intel XScale 指令 周期 定时 





Intel XScale 基于 一 条 7 级 流水 线 。 在 执行 load 指令 后 ,通常 会 有 2 АЕНА, 28 
果 才 可 以 被 使 用 。 科 法 指令 的 发 射 通常 有 固定 的 周期 数 ,但 屁 结 果 需 要 经 过 若干 周期 后 才 
能 被 使 用 ,具体 的 周期 数 依 束 于 寄存 器 Rs 的 值 ， 表 D. 11 显示 了 和 溢 法 选 代 周 期 数 M 和 Rs 
值 的 关系 。 表 D. 12 列 出 了 Intel XScale 的 指令 周期 定时 数 。 


X 0.11 Intel XScale Ж WE ЖЖ 





M Rs ФЕОРАЖ- ЛЕДЕН Б) ВЕДНА s=] хай 








apns sJedojo^orc LUSISAS уу 


1 — 015567219 SSS9SSSS S8S8S8S8555 SXXXXXXX XXXXXXXX 
2 — 2 SSSSSKXXX XXXXXXXX — XXXXXXXX XXXXXXXX 
3 HARI XXXXXXWX — XXXXXXXX — XXXXXXXX XXXXXXXX 





Ж D.12 Intel XScale( ARMvSTE J 指令 周期 定时 数 





Tid Ж xl B 期 说 m 

ALU 1 如 果 使 用 寄存 器 指定 的 移 位 或 者 使 用 RRX, 则 指令 周期 数 加 1; 如 
Æ Rd Æ pe: 则 指令 周期 数 加 1 

636 B,BL 1 158 p E RERO И Cms predicted? , 则 指令 周期 数 加 4 

BX.BLX 5 [如 果 没 有 执行 , 则 需要 1 个 周期 ] 

LDR/B/H/SB/SH 1 Rd 在 2 个 周期 内 不 能 使 用 

Rd not pe 

LDR Rd js pe 8 DER EU dur ШЕЕ? 个 周期 

LDRD 1 Rd 在 2 个 周期 内 不 可 使 用 .R(td 十 1) 在 3 个 周期 内 不 可 使 用 

LDM ,not loading pe 2+N 县 后 一 个 装载 的 依 在 2 个 周期 内 不 可 使 用 ,倒数 第 2 个 装载 的 悄 在 
14+ 5838 A P E Hl 

LDM loading pc T4-N 如 果 N< 3, 则 指令 使 用 10 个 周期 
[如 果 没 有 质 行 指令 , 则 需要 34 N 个 周期 ] 

MCR to сорго 15 2 

MRC from copro 15 4 

MRS 1 Rd f£ ЯАВ 


MSR 2 如 果 csx k RJ EE ЖЕ LRL IR CR 4 
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续 表 D. 12 О 

- = 

TY. Box 说 om а 
MUL,MLA 1 Rd 在 凡 个 周期 内 不 能 使 用 ,在 M—1 个 周期 内 不 能 启动 另 一 条 及 С 
法 指令 = 

O 

MUIS, MLAS 1+M 2 
aMULL 1 КЕН: 在 Mtl 个 周期 内 不 能 使 用 ,RdLo 在 МАНЖ, 9 
在 朵 个 周期 内 不 能 启动 另 一 条 乘法 指令 O 

(D 

xMLAL 2 RdHi Мт Н. Као 在 M— 1 个 周期 内 不 可 使 用 ， 一 
EM-I 个 周期 内 不 能 启动 另 一 条 乘法 指令 3 

xMULLS, xMLALS 24-M © 
i 


PLD 1 
Rd 在 1 个 周期 内 不 能 使 用 
Rd 在 1 个 周期 内 不 能 使 用 


QxADD, QxSUB 
SMULxy ,SMLAzy 


1 
1 
SMULWx,SMLAW x, 1 则 在 ?个 周期 内 不 能 使 用 ,在 1 LR PP EUR 35 — ЖЕНЕ 
SMLALxy 2 RdHi # 1 个 局 期 内 不 能 使 用 
STR/B/H 1 
STRD 2 
STM 24-N 
SWI 6 
SWP/B 5 | 637 
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ARMI 内 核 基于 一 条 具有 3 个 执行 阶段 的 8 级 流水 线 。 在 load 指令 执行 后 ,通常 有 2 
个 局 期 的 延迟 ,装载 的 数据 才 可 以 被 使 用 。 一 些 操作 ,比如 移 位 .乘法 和 地 址 计算 等 ,要 求 其 
输入 寄存 内 提前 1 个 周期 有 效 。 

例如 ,下 面 的 代码 将 会 使 内 核 中 止 3 个 周期 ,因为 load 指令 的 结果 在 2 个 周期 内 不 可 
使 用 ,而 移 位 指令 要 求 输入 寄存 器 提前 1 个 周期 有 效 。 

IDR — rü,[r1] {0 £ 2 ТИАМИН 

MOV — r2,r0, ASR#3 ;要 求 rO 提前 1 个 周期 有 效 


ARM11 有 一 个 单独 的 地 址 发 生 器 ,可 以 在 1 个 周期 内 计算 出 简单 的 地 址 。 更 复杂 的 
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地 址 计算 需要 ?个 周期 。 表 DD, 13 定义 了 在 不 同 寻 址 方式 下 ,地 址 计算 所 需要 的 周期 数 4 。 
ЖОр,13  ARMLI 地 址 计算 周期 
А doa à, 


[ Rn. # signed —- offsetz- ]( 11 
[Rn], # X signed— offset 
[Ron Rt LSL 8 2) ]i t) 
[Ro]: Rmt.LSL i 2] 


[Rn, - Rm]!!! 

; [Rn]. — Rm 
[Rn.i—)«shifted Rm ](!). ЕТЕТ). BO s LSL #2 
ГК, 1 — ) shift Rm HEETE LSL #gosk LSL #2 





ARMII 内 核 使 用 分 支 预测 技术 ,因此 能 把 由 于 程序 流程 改变 而 产生 的 延 时 周期 最 小 
化 。 置 位 CP15 寄存 器 cl 的 位 11 ,可 以 使 能 分 支 预测 。 有 3 种 分 支 预测 器 ， 


ФРАНТ  HODEDCNO dE) X BOE cache 中 的 相对 跳 转 。 这 种 情况 是 处 理 器 
第 “次 发 现 一 个 给 年 的 分 支 指令 。 静 态 顶 测 器 向 前 按 条 件 满足 . 跳 转 发 生 方 向 预 
38] ,向 后 按 条 件 不 满足 . 跳 转 不 发 生 方 向 预测 。 

e uS Ii ”预测 已 经 记录 在 分 支 预测 cache 中 的 相对 跳 转 ， 分 支 预测 cache 有 
128 个 基于 分 支 指令 踊 转 地 址 的 项 ， 每 个 cache 项 预测 分 支 目 标 和 跳 转 是 否 发 生 ， 
一 个 cache 项 有 4 个 状态 ;几乎 不 发 生 (strongly not taken) ,基本 不 发 生 {weakily 
not taken) ,很 少 发 生 {weakly taken), £& 2$ 8 #E (strongly taken)。 每 当 跳 转发 生 
时 ,状态 右 移 一 个 (如 果 可 以 的 话 ); 每 当 跳 转 没 有 发 生 时 ,状态 左 移 一 个 (如 果 可 
B. 

e ИЖ S BOURSE НЕЕ ШЕФ. EBRGGTHSBISAS3TERRIEK 
的 BL 和 BLX 子 程序 调用 的 返回 地 址 。 


di D. 14 列 出 了 ARM11CARMv6) 指 令 周 期 定时 数 。 


ЖОр.14 ARMI11{ARMw6) 指 令 周 期 定时 数 
| 


НАЙ sl Hom 说 Fm 
— —-. m LLL 
ALU 1 如 果 Rm 执行 一 个 常量 欧 位 , 则 应 提前 1 个 周期 有 效 
Operations except a MOV to pc ^u RES Far HEELS 4 БИЯ 1 
(lor MOV to pe, see BX) 这 种 情况 下 ,Rs SOR BUILT 个 周期 ,Rn 在 第 2 个 周期 才 会 使 用 


| ШЖ Rd 是 pe, 则 指令 周期 数 加 6 
| 
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#* D.14 J 
"mer 8 期 说 明 g 
B аа | 息 设 动态 预测 皮 功 一 些 动态 预测 的 分 支 隐 千林 能 被 重要 (在 流水 = 
py —immeq> 线 执行 中 ) të HUN ЖОЕ О = 
а AUR of B ЕЕ ИЕС a = 
如 果 动态 预测 或 者 静态 项 测 没 有 成 功 , 则 指令 周期 数 加 4, 在 这 种 情 С) 
况 下 ,标志 需要 提前 3 个 周期 8 
Ф 
РХ Ir 4  ШЕАЖЕЯННЕНЕН УУ, , 则 指令 周期 数 加 1 = 
МОУ pc,lr ШЖ X, e PEE ELE [0 HER А TUN , 则 指令 周期 数 加 3 3 
如 果 条 件 执行 指令 周期 加 1, 这 时 标志 要 求 失 前 AE a 
с 
ВХ Rm (not lr) 5 — MAE MOV 指令 没有 用 到 移 位 ,并 且 是 条 件 执行 的 ,那么 标志 要 提 
BLX Rm | 前 2 小 周期 
in MOV 使 用 常量 移 位 , 则 指令 周期 茹 加 1, 并且 Rm 要 提前 1 个 
MOV pc, Rm {not lr) 
周期 ,Rn 在 第 2 个 局 期 才 会 合用 。 如果 是 条 件 执行 , 则 标志 需要 提 
前 1 个 局 期 
如 果 MOV 使 用 寄存 器 移 位 , 则 Rs 需 取 提前 1 个 周期 ,Rn 在 第 2 个 
周期 才 会 使 用 
CPS 1 如 果 异 式 切换 , 则 指令 所 期 数 加 1 
LDR/B/H/SB/SH/D A Rd#24B8 Н. 对 于 LDRPD 和 Rd 十 1),2 个 
Rd not pe MERTER 
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如 果 装 载 是 洪 在 的 .没有 对 齐 的 { 基 址 或 考 偏 移 没 有 对 和 齐 ), 则 在 下 
一 个 措 令 周期 不 能 启动 另外 的 存储 访问 指令 

如 果 装 载 没 有 对 齐 ; 则 对 于 LDR/B/SH, Rd 在 3 个 周期 内 不 能 使 
用 1 对 于 LDRD,Rd 在 2 个 周期 内 不 能 使 用 ,Rd 十 由 在 3 个 周期 内 


不 能 使 用 
LER pe,[sp, & off]( !) 4 MBSCKIREDEEGE BE SEBOCS Z. ИНФ ИНЕ 4 
LDR pe, [sp], st off 如 果 无 条 件 并 且 返 回 堆栈 没有 预测 , 则 指令 于 期 数 扣 5 
LDR pc not using a A+? 如 果 条 件 执行, 则 周期 数 加 2 
Constant stack offset 
LDM ,not loading ре 1 在 接 下 来 的 (N 十 a 一 1)/2 个 周期 内 不 能 进行 存储 访问 ,这 里 = 是 地 


址 的 第 2 位 ,第 上 个 窗 存 器 在 信 十 ae 十 3772 个 周期 内 不 能 访问 
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3# 4- Ж 84 


LDM вр{!} loading pc 


LDM loading ре not 


from the staek 
MCR/MCRR 
MRC/MRRC 
MRS 

MSR to cpsr 


MSR to spsr 
MUL,MLA 


MULS, MLAS 


MULL, xMLAL 


xMULIS,xMLALS 


PKHBT,PKHTB 
PLD 
QxADD, QxSUB 


REV, REV16, REVSH 


18, 8H, Q,U,UH,UQ! 
ADDIS, ADDSUBX, 
SUBADDX, SUBI&, 
ADDE, SUBS 


X D. 14 





я m 说 明 





ШЕЕ 8 B LH: pü ЬЕ 5 B RI Fü NEG АН, ЛИН + W 
期 数 加 5， 在 CN 十 a) 个 周期 内 不 能 进行 其 它 的 存储 访问 ,第 上 个 寄 
存 器 在 (十 a 十 5) 个 周期 内 不 可 司 用 


#(N+a)/2 个 周期 内 不 能 进行 其 它 的 存储 访问 ,第 上 个 寄存 喘 列 
db d E EEG Ea 50/2 个 周期 内 不 能 使 用 


和 存储 办 访问 的 情形 相同 
和 存储 器 访问 的 情形 相同 ,结果 寄存 器 在 2 个 周期 内 不 可 全 用 


如 果 性 何 сех 域 更 新 , 则 指令 周期 数 加 3 


Rd 在 2 个 周期 内 不 髓 启用。 如 果 必 为 男 外 一 个 冬 续 指令 的 黑 加 歼 
输入 ; 则 此 时 它 在 1 个 周期 内 不 可 潭 用 

Rm 和 Rs 要 提前 ] 个 周期 ,对 于 MLA 指令 ,Rn 在 第 2 个 周期 才 会 
H 

Rm 和 Rs 要 提前 1 个 展期 ,对 于 MLAS 指令 ,Rn 在 2 个 周期 才 
会 使 用 


RdLo 在 1 个 周期 内 不 可 使 用 RdHi 在 2 个 周期 内 不 可 使 用 。 如 
果 这 些 寄存 器 作为 另外 一 个 梁 法 器 的 办 加 器 , 则 延迟 周期 王 少 1 
^, Rm 和 Rn 要 提前 1 个 周期 可 以 使 用 

RdLo 对 于 MLAL 指令 ,在 第 :个 周期 才 会 司 用 


Rm 和 Rs 要 提前 1 个 周期 可 以 使 用 ,RdLo 对 于 MLAL jh 4, Tr ff 
2 + EXE IH 
Rm 机 提前 1 个 周期 可 用 


Rd 在 1 个 局 期 内 不 能 后 用 ,对 于 QDADD 和 QDSUB 指令 ,Rn 要 所 
前 1 个 周期 可 用 


Rm 要 提前 1 个 周期 可 用 
对 于 起 和 或 二 分 操作 ( 带 SH,Q,UH,UQ NEN) 


Rd 在 1 个 周期 内 不 可 使 用 ;对 于 ADDSUBX 和 SUBADDX 指令 ， 
Rm 和 去 提前 1 个 周期 可 用 


CC 








184 X 


SEL 
SETEND 


SMULxy, МІ.Аху» 


SMULWy,SMLAWy, 


SMUAD,SMLAD, 
SMUSD,SMLSD 


SMLALxy, 
SMLALDIX) 
SMLSLDi(X) 


SMMUL(R), 
SMMLA|R), 
SMMLSIR? 


SAT USAT, 
SSATI6, USAT16 


STR/B/H/D 


STM 


SWI 
SWP/B 
SXT,UXT 


UMAAL 


USADS8,USADAS 











Rd ТЕ 2 ^ Wa RE 8 FR EARTE RIMARRA ,这 
B] Rd 在 1 个 周期 内 不 可 使 用 
Rm 和 Rs 要 提前 1 个 周期 可 以 合用 


RdLo 在 1 个 周期 内 不 能 使 用 ,RdHi 在 2 个 周期 内 不 能 使 用 。 作 为 
其 它 薪 法 拘 作 的 黑 加 器 输 人 ,会 践 少 ] 个 周期 的 延 退 ，Rm 和 Rs Ж 
提前 1 个 周期 可 用 ,RdHi 在 第 > 个 半期 才 司 用 


Rd 在 > 个 半期 内 不 第 合用, 除非 作为 其 它 滋 累加 的 累加 器 输入 ,这 
时 Rd 在 1 个 周期 内 不 可 能 用 
Rm 和 Rs 要 提前 1 沾 周期 可 以 使 用 ,Rn 在 第 二 个 周期 才 使 用 


Rd 在 1 个 周期 内 不 可 使 用 ,对 于 SSAT 和 USAT 指令 ， 
Rm Xt 1 个 周期 可 以 使 用 
md iB SUB M TER OEI RE RISI AX r, W # F 


一 个 指令 周期 木 能 启动 红外 的 存 情 访问 指令 
对 于 STRD, 在 1 个 周期 内 不 能 写 Red 十 1) 


在 随后 的 (Na 一 DA 个 周期 内 ,不 能 月 动 存 傅 访问 提 售 ,< 是 地 
址 的 第 > 位。 在 AR/2 个 周期 内 不 甬 写 寄存 器 列表 中 的 第 大 个 寄存 器 


Rd 在 1 + 8 818 + Bh ЕН 
Rm ЖЖ 1 个 周期 可 以 使 用 


RdLo 革 1 个 周期 内 不 能 使 用 , RdHi 在 2 个 局 期 内 不 能 使 用 ,作为 
AtARENEERNBAS A SWOTITRSSEREE, Rn 和 Rs Ж 
提前 1 个 周期 可 用 ,RdLso 在 第 2 АН 


Rd 在 2 个 周期 内 不 能 使 用 ,除非 USADS 的 结果 作为 USADAS 的 
黑 加 器 ,这 样 其 有 1 MEI) SE E 
Rm 和 Rs 要 提前 1 个 周期 可 用 


D 指令 周期 定时 
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E.1 ARM 参考 


€ ARM Architecture Reference Manual, Second Edition, Published 2001, edited by 
David Seal. Addison-Wesiey, The definitive reference for the ARM architecture 
definition, 

€ ARM System-on-Chip Architecture, Second Edition, Published 2000, by Steve 
Furber. Addison-Wesley. Covers the hardware aspects of ARM processors and 
SOC design. 


бироәурәјѕәбӘгѕ 3 


Е.2 算法 参考 


& Digital Signal Processing: Principles, Algorithms, and Applications, by John G. 
Proakis and Dimitris G. Manolakis, Published 1996, PrenticeHall. This is a solid 
book on DSP algorithms. 

@ The Art of Computer Programming: Seminumerical Algorithms, by Donald E. 
Knuth, Third Edition, Published 1998, Addison-Wesley. А highly respected work 
covering random number generation, algorithms used for extended-proision arith- 543 


metic, as well as many other fundamental algorithms, 


E.3 存储 器 管理 与 cache 体系 结构 (硬件 综述 与 参考 ) 





€ The Cache Memory Book, by Jim Handy. Seconed Edition (1998). Academic 
Press, Provides a detailed discussion of cache design. 

@ Computer Architecture: À Quantitative Approach, by John L. Hennessy et al. 
Morgan Kaufmann, 2" edition (1996). A classic text on computer hardware de- 
sign. 

€ Computer Organization and Design: The Hardware/software Interface, by David 
А. Patterson et al. 1997. Morgan Kaufmann, А solid textbook showing the rela- 


tionship between hardware and software in modern computer systems, 
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E.4 操作 系统 参考 


@ Design of the UNIX Operating System. by Maurice J, ВасһҺ(1986}, Prentice-Hall. 
Describes the internal algorithms and structures of the UNIX System V kernal, 

€ Operating Systems, 2" edition( 1990) by Harvey M, Deitel. Addison-Wesley. А 
very good introductory text on operating systems, 

€ Modern Operating Systems, 2° edition(2001) by Andrew Tanenbaum. Prentice 


Hail. À thorough overview of operating system design. 
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